MySQL如何在tsv文件中导入不同的字符集

问题描述 投票:0回答:1

我有一个包含1.3M行的tsv文件,其中包含拉丁语,俄语,中文等不同的字符集。

这是我的表结构

    CREATE TABLE `zip_test` (
    `country_code` VARCHAR(2) NULL DEFAULT NULL,
    `postal_code` VARCHAR(20) NULL DEFAULT NULL,
    `place_name` VARCHAR(180) NULL DEFAULT NULL,
    `id` INT(11) NOT NULL AUTO_INCREMENT,
    PRIMARY KEY (`id`)
)
COLLATE='utf8mb4_general_ci'
ENGINE=InnoDB
AUTO_INCREMENT=160467
;

通过从命令行运行此命令,我设法看到俄语字符正常,但其他人仍未正确显示。

mysql -uUser -pPass --default-character-set=utf8 --local-infile database -e "LOAD DATA LOCAL INFILE 'file.tsv'  INTO TABLE table_name  FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'"

我该如何解决这个问题?我做错了什么?我以前从未与拉丁语有任何不同之处。

mysql collation
1个回答
0
投票

好吧,我做了一些错事。

这篇文章澄清了很多https://mathiasbynens.be/notes/mysql-utf8mb4

我必须运行它来准备我的数据库

    # For each database:
ALTER DATABASE database_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
# For each table:
ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# For each column:
ALTER TABLE table_name CHANGE column_name column_name VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# (Don’t blindly copy-paste this! The exact statement depends on the column type, maximum length, and other properties. The above line is just an example for a `VARCHAR` column.)

我的命令行也需要更正为:

mysql -uUser -pPass --default-character-set=utf8mb4 --local-infile database -e "LOAD DATA LOCAL INFILE 'file.tsv'  INTO TABLE table_name  FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'"
© www.soinside.com 2019 - 2024. All rights reserved.