Unicode范围由日本

问题描述 投票:20回答:5

我试图分开英文和日文字符。我需要找到所有的日文字符的Unicode范围。什么是日本所有字符的Unicode范围是多少?

unicode
5个回答
6
投票

CJK(中国日本和韩国),平假名和片假名(包括半角片假名)

http://www.unicode.org/charts/


36
投票

如zawhtut提到的,this page具有用于多种Unicode范围的参考。总结范围:

  • 日式标点符号(3000 - 303F)
  • 平假名(3040超过309F)
  • 片假名(30阿0 -30津市F)
  • 全角罗马字符和半角片假名(FF00 - FFEF)
  • CJK统一汉字 - 常见和不常见的汉字(4E00 - 9faf)

6
投票

尽管这个问题已经有了答案,this blog post可能更完全。

请访问网站,并获得他们的指标,但为后人这里有一个复制粘贴。

平假名

Unicode代码点的正则表达式:[\x3041-\x3096]

Unicode的块属性的正则表达式:\p{Hiragana}

§哦,我有百分之ü鸬鹚啧啧例如,你是否如它的路飞意想不到的门等,以技术做,而不是马上只能达到这一点,你座位和Flip一津市的Dji泽其志的树是各不Dzu手细蚍蜉部门碱基对几乎宝或看到气窗也可为N雅和楚雨哟重新在于R好,等滤液pictmap我TEWI我们武ゕゖS 0卜°浦ゝ五十铃ゟ

片假名(全宽)

Unicode代码点的正则表达式:[\x30A0-\x30FF]

Unicode的块属性的正则表达式:\p{Katakana}

゠第一个I B©Çéd○○蚊蛾键甲酸点击变灰柯获得共同的Gore-支持牛油果迪扫描的细胞泽苏联占领区数据妲己二津市津市乌斯TE德资本去NA 2个怒江氖卢武铉HA服务器路径非微针在消隐拖鞋˚F拜裴几乎宝玛咪时间注意涡轮增压器雅专访宇®优拉李莱俄罗斯娃娃TEWI我们を倒武个月弗吉尼亚州六Ve的VO-在ヽ五十铃ヿ

汉子

Unicode代码点的正则表达式:[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]

Unicode的块属性的正则表达式:\p{Han}

汉字 日本语 文字 言语 言葉 etc. Too many characters to list.

这个正则表达式匹配的所有汉字,包括那些在中国使用。

汉字部首

Unicode代码点的正则表达式:[\x2E80-\x2FD5]

⺀ ⺁ ⺂ ⺃ ⺄ ⺅ ⺆ ⺇ ⺈ ⺉ ⺊ ⺋ ⺌ ⺍ ⺎ ⺏ ⺐ ⺑ ⺒ ⺓ ⺔ ⺕ ⺖ ⺗ ⺘ ⺙ ⺚ ⺛ ⺜ ⺝ ⺞ ⺟ ⺠ ⺡ ⺢ ⺣ ⺤ ⺥ ⺦ ⺧ ⺨ ⺩ ⺪ ⺫ ⺬ ⺭ ⺮ ⺯ ⺰ ⺱ ⺲ ⺳ ⺴ ⺵ ⺶ ⺷ ⺸ ⺹ ⺺ ⺻ ⺼ ⺽ ⺾ ⺿ ⻀ ⻁ ⻂ ⻃ ⻄ ⻅ ⻆ ⻇ ⻈ ⻉ ⻊ ⻋ ⻌ ⻍ ⻎ ⻏ ⻐ ⻑ ⻒ ⻓ ⻔ ⻕ ⻖ ⻗ ⻘ ⻙ ⻚ ⻛ ⻜ ⻝ ⻞ ⻟ ⻠ ⻡ ⻢ ⻣ ⻤ ⻥ ⻦ ⻧ ⻨ ⻩ ⻪ ⻫ ⻬ ⻭ ⻮ ⻯ ⻰ ⻱ ⻲ ⻳ ⼀ ⼁ ⼂ ⼃ ⼄ ⼅ ⼆ ⼇ ⼈ ⼉ ⼊ ⼋ ⼌ ⼍ ⼎ ⼏ ⼐ ⼑ ⼒ ⼓ ⼔ ⼕ ⼖ ⼗ ⼘ ⼙ ⼚ ⼛ ⼜ ⼝ ⼞ ⼟ ⼠ ⼡ ⼢ ⼣ ⼤ ⼥ ⼦ ⼧ ⼨ ⼩ ⼪ ⼫ ⼬ ⼭ ⼮ ⼯ ⼰ ⼱ ⼲ ⼳ ⼴ ⼵ ⼶ ⼷ ⼸ ⼹ ⼺ ⼻ ⼼ ⼽ ⼾ ⼿ ⽀ ⽁ ⽂ ⽃ ⽄ ⽅ ⽆ ⽇ ⽈ ⽉ ⽊ ⽋ ⽌ ⽍ ⽎ ⽏ ⽐ ⽑ ⽒ ⽓ ⽔ ⽕ ⽖ ⽗ ⽘ ⽙ ⽚ ⽛ ⽜ ⽝ ⽞ ⽟ ⽠ ⽡ ⽢ ⽣ ⽤ ⽥ ⽦ ⽧ ⽨ ⽩ ⽪ ⽫ ⽬ ⽭ ⽮ ⽯ ⽰ ⽱ ⽲ ⽳ ⽴ ⽵ ⽶ ⽷ ⽸ ⽹ ⽺ ⽻ ⽼ ⽽ ⽾ ⽿ ⾀ ⾁ ⾂ ⾃ ⾄ ⾅ ⾆ ⾇ ⾈ ⾉ ⾊ ⾋ ⾌ ⾍ ⾎ ⾏ ⾐ ⾑ ⾒ ⾓ ⾔ ⾕ ⾖ ⾗ ⾘ ⾙ ⾚ ⾛ ⾜ ⾝ ⾞ ⾟ ⾠ ⾡ ⾢ ⾣ ⾤ ⾥ ⾦ ⾧ ⾨ ⾩ ⾪ ⾫ ⾬ ⾭ ⾮ ⾯ ⾰ ⾱ ⾲ ⾳ ⾴ ⾵ ⾶ ⾷ ⾸ ⾹ ⾺ ⾻ ⾼ ⾽ ⾾ ⾿ ⿀ ⿁ ⿂ ⿃ ⿄ ⿅ ⿆ ⿇ ⿈ ⿉ ⿊ ⿋ ⿌ ⿍ ⿎ ⿏ ⿐ ⿑ ⿒ ⿓ ⿔ ⿕

片假名和标点符号(半宽)

Unicode代码点的正则表达式:[\xFF5F-\xFF9F]

⦅⦆“”禾§我©èØ涡轮增压器的采访®津市超过A B C dØ蚊子键点击柯共同萨师扫描单元的源数据志津特斗娜双零氖卢武铉哈人类全˚FË玛咪气窗模型雅于育拉李莱俄语单词唐氏

日本符号和标点符号

Unicode代码点的正则表达式:[\x3000-\x303F]

、 。 〃 〄 々 〆 〇 〈 〉 《 》 「 」 『 』 【 】 〒 〓 〔 〕 〖 〗 〘 〙 〚 〛 〜 〝 〞 〟 〠 〡 〢 〣 〤 〥 〦 〧 〨 〩 〪 〫 〬 〭 〮 〯 〰 〱 〲 〳 〴 〵 〶 〷 〸 〹 〺 〻 〼 〽 〾 〿

其他日本符号和字符

Unicode代码点的正则表达式:[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]

ㇰㇱㇲㇳㇴㇵㇶㇷㇸㇹㇺㇻㇼㇽㇾㇿ㈠㈡㈢㈣㈤㈥㈦㈧㈨㈩㈪㈫㈬㈭㈮㈯㈰有限公司YK㈳㈴㈵㈶㈷㈸㈹㈺㈻㈼㈽㈾㈿㉀㉁ ㉂㉃㊀㊁㊂㊃㊄㊅㊆㊇㊈㊉㊊㊋㊌㊍㊎㊏㊐㊑㊒㊓㊔㊕㊖㊗㊘㊙㊚㊛㊜㊝㊞㊟㊠㊡㊢㊣㊤㊥㊦㊧㊨㊩㊪㊫㊬㊭㊮㊯ ㊰㊱㊲㊳㊴㊵㊶㊷㊸㊹㊺㊻㊼㊽㊾㊿㋀㋁㋂㋃㋄㋅㋆㋇㋈㋉㋊㋋㋐㋑㋒㋓㋔㋕㋖㋗㋘㋙㋚㋛㋜㋝㋞㋟㋠㋡㋢㋣㋤㋥ ㋦㋧㋨㋩㋪㋫㋬㋭㋮㋯㋰㋱㋲㋳㋴㋵㋶㋷㋸㋹㋺㋻㋼㋽㋾㌀㌁㌂㌃㌄㌅㌆㌇㌈㌉㌊㌋㌌㌍㌎㌏㌐㌑㌒㌓公里㌕㌖㌗㌘ ㌙㌚㌛㌜㌝㌞㌟㌠㌡㌢㌣㌤㌥美元吨㌨㌩㌪㌫㌬㌭㌮㌯㌰㌱㌲㌳㌴㌵公顷㌷㌸㌹㌺㌻㌼㌽㌾㌿㍀㍁㍂㍃㍄㍅㍆㍇㍈㍉㍊㍋㍌米㍎㍏㍐升㍒㍓㍔㍕㍖㍗㍘㍙㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭㍮㍯㍰㍱㍲㍳㍴㍵㍶㍻㍼㍽㍾㍿

字母数字和标点符号(全宽)

Unicode代码点的正则表达式:[\xFF01-\xFF5E]

!“#$%&'()* +, - 。 / 0 1 2 3 4 5 6 7 8 9:; <=> @ A B C d E F G H I J K L M N 2 O P Qř式T U V W X Y Z [\] ^ _` A b C d E F G H I J K L M N 2 O p q - [R式T U v W X Y Z ^ {|}〜


5
投票

请参阅本page的参考。它包含片假名,平假名和汉字的unicode范围。


1
投票

什么是日本所有字符的Unicode范围是多少?

看一看The WiLI benchmark dataset for written language identification的页面,特别是表II。在括号中的数字是与你的Unicode代码范围(以十进制)捕获该语言的一部分。

  • 12352 - 12543:日本(48.73%),英国(0.00%)
  • 19000 - 44000:日本(32.78%),英国(0.00%)
  • 20 - 128:英国(99.74%),日本(11.58%)

你可以看到,20 - 128捕获的英语非常好,所有的3块是日本重要的,但还是大型零件丢失。

这些数字与lidtkWiLI-2018创建。

© www.soinside.com 2019 - 2024. All rights reserved.