所以我有一个包含个人数据的大 .csv 文件,我在姓名+生日列上删除了重复项和分组行。结果我得到了这样的 .csv:
名字 |
姓氏 |
生日 |
电子邮件 |
电话 |
手机 |
约翰 |
母鹿 |
2000-01-01 |
['[email protected]'] |
['123456789', '987654321'] |
['123456', '123456'] |
- 名字、姓氏和生日是一个对象的属性
人。 first_name 的属性类型是'name',last_name 的属性类型是'last name',birthday 的属性类型是'birthdate'
- email 是对象 Mail 的属性。电子邮件的属性类型是“电子邮件地址”
- phone 和 mobile 是对象 Phone 的属性。电话和手机的属性类型是'电话号码'
对象人 -> has_mobile_phone -> 对象电话
对象人 -> has_work_phone -> 对象电话(来自不同的列)
对象人 -> has_email -> 对象邮件
我需要用这个 .csv 创建六个文件:
- objects.csv:对象的 id 和 object_types
- object_types.csv:包含 Person、Phone 和 Mail 对象
- properties.csv:对象、属性和 property_types 的 ids
- property_types.csv:带有 name, last name, birthdate, email address, phone number
- relations.csv:对象和 relation_types 的 ids
- relation_types.csv:与has_mobile_phone,has_work_phone,has_email
谁能推荐一个高效的 python 库来做到这一点?我有多个具有不同本体的文件。通常有更复杂的关系。但主要方法是一样的。文件很大,用我的代码完成本体创建需要很长时间。
提前致谢!