我已经下载了12.1.0 unicode数据,并且在文件UnicodeData.txt
中只有32,841行,因此只有〜30k个字符。想知道其他105,088个字符在哪里,但我一直找不到。想知道他们是在某个地方Unihan.zip
还是在某个地方UCD.zip
。我似乎在这里找不到此信息。
想知道我用什么文件结束了所有命名字符的数据库。
如技术报告中所述,其中的某些条目UnicodeData.txt
是字符范围:
为了向后兼容,文件
UnicodeData.txt
中的范围由范围的开始和结束字符的条目指定,而不是由“ X..Y”形式指定。起始字符由范围标识符指示,后跟尖括号中的逗号和字符串“ First”。该条目代替该行的字段1中的常规字符名称。结束字符在下一行用相同的范围标识符表示,后跟尖括号中的逗号和字符串“ Last”:
4E00;;Lo;0;L;;;;;N;;;;; 9FEF; ;Lo;0;L;;;;;N;;;;;
换句话说,UnicodeData.txt
文件中的行数与数据库中的字符数不同。一些字符范围由仅两行编码的成百上千个字符组成。