101. 音译转化Transliteration

2019-02-21
作者 : 云客
本节点价格 : 免费
云客Drupal源码分析
0
- 登录后才能发表评论

面包屑导航
1. 首页
2. 云客Drupal源码分析
3. 101. 音译转化Transliteration

音译转化Transliteration服务用于依据发音将Unicode字符串转化为US-ASCII字符串，这和翻译是不同的概念，对于中国人来说最直观的理解就是将中文文字转变为拼音，Unicode涵盖世界所有语言的字符，因此该服务可转换所有的语言，而不仅仅用于中文；在drupal中通常用于依据用户输入产生识别id，如在后台定义字段操作中，输入中文的标签时，系统用该服务自动产生机器名。

服务定义及使用示例：

服务定义如下：

  transliteration:
    class: Drupal\Core\Transliteration\PhpTransliteration
    arguments: [null, '@module_handler']

第一个参数是数据目录，如果为NULL将使用类文件所在目录下的“data”目录，默认如下：

core\lib\Drupal\Component\Transliteration\data

服务获取方法：\Drupal::transliteration()

使用示例：

在控制器中运行以下代码：

    $str="我是云客，很高兴认识您。";
    $lang=\Drupal\Core\Language\LanguageInterface::LANGCODE_DEFAULT;
    echo \Drupal::transliteration()->transliterate($str, $lang, '_');

将输出：

“woshiyunke,hengaoxingrenshinin. ”

如果想进一步得到变量名，可以这样处理：

$transliterated = \Drupal\Component\Utility\Unicode::strtolower($transliterated);
$transliterated = preg_replace('@[^a-z0-9_.]+@', '', $transliterated);

实现原理概述：

你可能会对此感到非常好奇，但实际上很简单，系统附带了一份Unicode编码与音译字符的对应文件，用户也可以依据语言自定义该映射数据，在转化时按Unicode字符码查找替换即可，在理解代码之前需要先明白一些编码知识。

Unicode与UTF-8编码：

Unicode码称为统一码，或万国码，是一种包含世界各国语言字符的编码，目前还在不断发展中以包括更多字符，UTF-8是为解决Unicode码储存浪费问题而生的再次编码方案，表示一个Unicode字符的UTF-8编码是变长的，目前代表Unicode字符的UTF-8编码最多4字节（每字节有8比特），具体有多少字节可由UTF-8编码最前面几比特推断出来，第一比特如果为0则仅一字节，如果为110、1110、11110则分别代表有2、3、4字节，规则有以下两点：

一、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

二、对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

换句话说UTF-8编码字节数和对应的形式如下：

1字节形式：0xxxxxxx

2字节形式：110xxxxx 10xxxxxx

3字节形式：1110xxxx 10xxxxxx 10xxxxxx

4字节形式：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

如果不是这样的形式，则不是有效的UTF-8字符，UTF-8编码可表示所有的Unicode编码字符，将以上这些形式中的X按顺序提取出来形成的二进制串就是Unicode码的整数值，本文将其称为Unicode字符码，她是本篇的重点，系统据此查找并替换音译字符。

为便于读者理解，云客在这里提供以下两个辅助程序：

一个UTF-8编码字符可以通过以下函数显示其内部的二进制形式表示：

function echoUTF8($character)
{
    $count = 0;
    for ($i = 3; $i >= 0; $i--) {
        if (isset($character[$i])) {
            $count = $i;
            break;
        }
    }
    $s = '';
    for ($i = 0; $i <= $count; $i++) {
        $s .= str_pad(base_convert(ord($character[$i]), 10, 2), 8, '0', STR_PAD_LEFT) . " ";
    }
    echo $s;
}

如echoUTF8 ("客");，将输出汉字“客”的utf8内部表示：

“11100101 10101110 10100010”，

按照上述转Unicode的方法（提取模板中的x）提取二进制串将是：

“0101 101110 100010”

它的十进制表示为：23458，十六进制表示为：5ba2，Unicode编码正是其十六进制表示，记为“\u5ba2”

一个UTF-8编码字符可以通过以下程序得到Unicode字符码的十六进制表示：

function echoUnicode($character)
{
    $first_byte = ord($character[0]);
    $code = -1;
    if (($first_byte & 0x80) == 0) {
        $code = $first_byte;
    }
    if (($first_byte & 0xe0) == 0xc0) {
        $code = (($first_byte & 0x1f) << 6) + (ord($character[1]) & 0x3f);
    }
    if (($first_byte & 0xf0) == 0xe0) {
        $code = (($first_byte & 0x0f) << 12) + ((ord($character[1]) & 0x3f) << 6) + (ord($character[2]) & 0x3f);
    }
    if (($first_byte & 0xf8) == 0xf0) {
        $code = (($first_byte & 0x07) << 18) + ((ord($character[1]) & 0x3f) << 12) + ((ord($character[2]) & 0x3f) << 6) + (ord($character[3]) & 0x3f);
    }
    if ($code == -1) {
        echo "the character is not legal.";
        return;
    }
    echo $s = '\u' . str_pad(base_convert($code, 10, 16), 4, '0', STR_PAD_LEFT);
}

调用echoUnicode("客");将输出：“\u5ba2”

源码解释：

在知道了原理后我们来看一看程序，代码以drupal组件的方式提供（意味着可独立用于其他项目），核心继承添加了模块修改功能，各方法介绍如下：

public function transliterate($string, $langcode = 'en', $unknown_character = '?', $max_length = NULL);

将字符串音译转化为US-ASCII字符串，参数含义如下：

$string：要被转化的字符串，需传入UTF-8编码的字符串，否则视为无效以未知字符代替

$langcode：被转化的字符串所属的语言的语言代码，默认为en（英语），以运用语言特定的覆写

$unknown_character ：当找不到转化等价物时的代替字符串，默认为'?'

$max_length：转化后的字符串最大长度限制，默认为 NULL，代表不限制，在截取时以原字符作为单位，不会将一个字符劈开，举个例子：“云客”转化后是“yunke”，如果该参数被设置为4，结果将是“yun”，而不是“yunk”，因为“客”作为一个整体，如果截取会使其被劈开，此时将整个舍去

该方法通过正则表达式分隔函数preg_split逐个字符处理，'//u'表示按unicode(utf-8)匹配（主要针对多字节比如汉字），如果字符不是合法的UTF-8编码的unicode字符，将用传入的未知字符作为转化结果

protected static function ordUTF8($character)

返回一个UTF-8编码的Unicode字符的字符编码十进制整数表示，类似ord函数，但该方法是针对utf8的，如果传入的不是UTF-8编码字符将返回-1，该返回值也就是前一节所指的Unicode字符码，可将其当做一个十进制整数，比如“云客”的“客”传入该方法将返回十进制整数：23458，该返回值转化为十六进制即是传入字符的Unicode码表示，代码如下：

$int =23458;
$s = '\u' . str_pad(base_convert($int, 10, 16), 4, '0', STR_PAD_LEFT);

此时$s的值为“\u5ba2”，正是汉字“客”的Unicode码表示

该方法使用了位操作，提示：用连续的1进行与（&）操作等价于针对这些位的截取操作，为阅读方便，这里将用到的十六进制对应的二进制列出如下：

0x80 ： 10000000
0xe0 ： 11100000
0xc0 ： 11000000
0x1f ： 00011111
0x3f ： 00111111
0xf0 ： 11110000
0xe0 ： 11100000
0x0f ： 00001111
0xf8 ： 11111000
0x07 ： 00000111

protected function replace($code, $langcode, $unknown_character)

依据十进制的Unicode字符码返回音译替换字符，替换字符可以包含多个US-ASCII字符，如果Unicode字符码在ASCII集以内，将直接通过函数chr转换返回，如果不在则查询映射文件，映射文件有两类：默认通用映射和语言特定的覆写映射，后者优先级更高

protected function readLanguageOverrides($langcode)

加载语言覆写映射文件，文件名是将语言代码中除字母和连字符“-”以外的字符去掉的结果，php文件类型，文件位置默认在core\lib\Drupal\Component\Transliteration\data中（可以通过构造函数改变默认位置），文件内容仅需声明一个php变量$overrides，如德语（语言代码为de）的内容为：

$overrides['de'] = [
  0xC4 => 'Ae',
  0xD6 => 'Oe',
  0xDC => 'Ue',
  0xE4 => 'ae',
  0xF6 => 'oe',
  0xFC => 'ue',
];

键名为语言代码，键值为一个数组，称为覆写数据数组，其键名为十六进制表示的Unicode字符码，也就是前文ordUTF8方法返回的值，注意该键名不要加引号，否则就变成字符串而不是整数了，键值为音译替换字符。

该文件在方法内加载，因此加载的变量是局部变量，如果没有声明$overrides将构造一个空数组，加载的覆写数据数组被保存在属性$this->languageOverrides[$langcode]中

Drupal覆写了该方法，使得模块可以通过修改钩子修改覆写映射，钩子名如下：

transliteration_overrides

默认没有模块实现该修改钩子，修改钩子函数如下：

hook_transliteration_overrides_alter(&$overrides, $langcode);

参数$overrides为覆写数据数组，键名为十六进制表示的Unicode字符码，见上文，如果不存在覆写数据，也会派发该钩子，此时该参数为一个空数组，模块可以添加覆写数据。参数$langcode为语言代码

protected function lookupReplacement($code, $unknown_character = '?')

依据Unicode字符码返回默认的音译映射字符串，这是通过查询预先准备的默认映射数据实现的，映射数据储存方式如下：

将Unicode字符码的低8位去除，剩下的高位转化为十六进制，不足两位时在左端补0，加“x”作为前缀，以此方式得出的字符串作为文件名，php类型，文件位置和语言覆写数据相同，文件内容仅声明一个变量$base，其值为一个数组，键名为Unicode字符码低8位转化的整数，以十六进制方式表示，在默认数据中可以看到许多键名被省略，这是因为php会按顺序加一形成键名；键值为音译替换字符，可以有多个，这里仍然以“客”作为列子，其Unicode字符码为23458，十六进制表示为：5ba2，低八位是“a2”，其他高位为“5b”，那么文件名就是“x5b.php”，打开这个文件，在“0xA0”位置是chong，向右两个元素就是“0xa2”，其键值正是“ke”。

public function removeDiacritics($string)

移除变音符号，变音符号（diacritics 或accents）是标明一个词如何发音的符号，在法语和西班牙语等语言中非常常见，在英语中不常见，对于汉语来说更是陌生，详见：

https://en.wikipedia.org/wiki/Diacritic

该方法实现比较简单，不多讲

补充说明：

1、该服务不会考虑汉语拼音多音字问题，如“行走”、“行业”中的“行”都会被转化为“xing”，正确转化拼音是一个很复杂的问题，需要考虑前后上下文，需要多音字相关的额外数据

2、该服务仅处理utf-8编码的字符串，不能直接处理GBK等编码，如有需要须先通过php函数转化字符串为utf-8编码

3、该服务的实现代码有部分来自MediaWiki项目的UtfNormal类，地址：

http://www.mediawiki.org/

4、如果转化结果需要当做php变量使用，需要做进一步处理，去除标点符号等特殊字符，以下中文标点符号和对应的转化结果如下：

原中文符号： ，。、；‘”：？！@#￥%……&*（）——+【】{}（）
转化后符号： ,.,;'":?!@#Y=%......&*()--+[()] {}()

本书共161小节。

云客Drupal源码分析
免费
1. 自动加载器与Composer
免费
2. 请求对象Request及请求堆栈
免费
3. 响应对象及Cookie设置
免费
4. Session系统
免费
5. 服务容器及Symfony依赖注入组件
免费
6. HttpKernel堆栈
免费
7. 缓存系统Cache
免费
8. 页面缓存的请求策略及响应策略
免费
9. php流、公共文件、私有文件
免费
10. Session进阶
免费
11. 数据库系统及其使用
免费
12. 数据库Schema及创建数据表
免费
13. 核心处理流程HttpKernel（drupal8执行流程）
免费
14. 认证Authentication系统、认证提供器
免费
15. 路由系统Route
免费
16. 网站维护模式
免费
17. 控制器执行及其解析器controller_resolver
免费
18. 页面标题
免费
19. 渲染数组（render array）
免费
20. 渲染上下文RenderContext、渲染器renderer
免费
21. 缓存上下文CacheContext
免费
22. 钩子、模块处理器、函数定义
免费
23. 渲染占位符及其产生器
免费
24. 渲染缓存RenderCache
免费
25. 合并数组
免费
26. 插件系统Plugin（上）
5.00 元
27. 渲染数组的元素类型
5.00 元
28. 状态信息state及键值储存系统
5.00 元
29. 类型化数据Typed Data API
5.00 元
30. symfony验证器组件validator
5.00 元
31. 数据验证Validation
5.00 元
32. 国际化Internationalization：核心翻译系统
5.00 元
33. 实体Entity概述
免费
34. 实体类型管理器、实体类型、实体
5.00 元
35. 通用唯一识别码UUID
免费
36. 权限系统（上）
免费
37. 权限系统（下）
免费
38. 数组操作
免费
39. 配置系统Configuration（一）
5.00 元
40. 配置系统Configuration（二）
5.00 元
41. 配置系统Configuration（三）：配置schema与类型化
免费
42. 配置系统Configuration（四）：配置schema与类型化
免费
43. 实体entity（一）：实体基类
免费
44. 实体Entity（二）配置实体基类
免费
45. 实体entity（三）配置实体储存处理器
免费
46. 有向无环图及依赖处理
5.00 元
47. 用户角色实体
免费
48. 语言Language
免费
49. 实体Entity(四）：内容实体概述Content Entity
免费
50. 插件系统（中）
免费
51. 字段API（上）
免费
52. 字段API（中）
免费
53. 实体Entity（五）内容实体基类
免费
54. 实体类型bundle信息服务entity_type.bundle.info
免费
55. 字段API（下）
免费
56. 实体字段管理器entity_field.manager
5.00 元
57. 内容实体数据库表结构及表映射table mapping
免费
番外篇：PHP开发者的JavaScript快速文档
免费
58. 实体entity（六）内容实体储存处理器类
5.00 元
59. 内容实体储存模式处理EntityStorageSchema
5.00 元
60.实体查询entityQuery
免费
61.渲染管道及显示变体DisplayVariant
5.00 元
番外篇：jQuery表单库jquery.form.js
免费
62.会话系统Session高级篇
5.00 元
63. 网络攻击与防御措施
免费
64. 表单定义示例
免费
65. 表单Form API
免费
66. id、class命名及Html辅助类
免费
67.Url和Link
5.00 元
68. 锁lock服务
免费
69. 日志系统与监控
免费
70. 内部动态页面缓存dynamic_page_cache
5.00 元
71. 主题引述
免费
72. 资源库assets library详解
10.00 元
73. 主题处理器theme_handler
免费
74. 主题协商theme negotiator
免费
75. 主题初始化器
免费
76. 主题钩子注册theme.registry
10.00 元
77. 主题管理器themeManager
免费
番外篇：原生twig模板引擎详解（上集：设计师篇）
免费
番外篇：原生twig模板引擎详解（下集：开发者篇）
免费
78. PHP代码储存PhpStorage
免费
79. twig服务
10.00 元
80. 占位符策略placeholder_strategy
免费
81. 响应附属处理attachments_processor
免费
82. 资源解析器AssetResolver
免费
83. 资源css与js优化处理
免费
84. 插件系统（下）
5.00 元
85. 表单进阶
免费
86.实体类型知识库entity_type.repository
免费
87. 配置实体查询
免费
88. 临时储存与消息服务
免费
89. 语言Language模块
10.00 元
90. 系统出入站路径处理
免费
91. 块系统block
免费
92. 条件插件condition plugins
免费
93. 帮助系统help
免费
94. 系统管理工具栏toolbar
免费
95. 实体表单entity form
10.00 元
96. 实体表单显示EntityFormDisplay
10.00 元
97. 实体表单验证（上）
10.00 元
98. 实体表单验证（下）
10.00 元
99. 字段控件FieldWidget
免费
100. 节点表单NodeForm
免费
101. 音译转化Transliteration
免费
102. 实体视图构建器EntityViewBuilder
免费
103. 实体视图显示及格式化器
免费
104. 实体列表构建器EntityListBuilder
免费
105. 分页器pager
10.00 元
106. 实体访问控制处理器AccessControlHandler
免费
107. 节点实体访问控制处理器
10.00 元
108. 导航菜单Navigation menus
免费
109. 菜单本地任务MenuLocalTasks
免费
110. 菜单本地动作MenuLocalActions
免费
111. 菜单上下文连接Menu contextual links
免费
112. 前端js中的翻译
免费
113. 前端JavaScript（一）全局设置与前端API
免费
114. 前端JavaScript（二）jQuery、进度条等
免费
115. 前端JavaScript（三）表单状态处理
10.00 元
116. 前端JavaScript（四）防抖与消息处理
免费
117. 前端JavaScript（五）表单库与安全边距库
免费
118.系统AJAX（一）：概述与示例
免费
119. 系统AJAX（二）：前端原理
免费
120. 系统AJAX（三）：后端原理
10.00 元
121. 系统AJAX（四）：命令
免费
122. 对话框dialog
免费
123. 自动完成API(autocomplete API)
免费
124. 实体自动完成autocomplete
10.00 元
125. 文件系统基础
免费
126. 占位符替换token服务
免费
127. 文件上传与管理（上）
免费
128. 文件上传与管理（下）
免费
129. 队列queue
免费
130. 计划任务cron
10.00 元
131. 批处理batch
免费
132. 面包屑路径
免费
133. 时区Time Zone
免费
134. 日期与时间
免费
135. 洪水控制防护flood
免费
136. 密码储存
10.00 元
137. 邮件系统
免费
138. 注册与注销
免费
139. 登录、退出、重置密码
免费
140. 视图views的使用（上）
免费
141. 视图views的使用（中）
10.00 元
142. 视图views的使用（下）
免费
143. 视图views开发
10.00 元
144.批量更新BulkUpdate
免费
145. 搜索search
免费
146. 多步表单multi-step form与表单重建rebuildForm
10.00 元
147. 配置的安装与卸载
免费
148. 配置同步（导入、导出）
免费
149.模块安装与卸载过程
10.00 元
150. 接口翻译导入导出与删除
免费
151. 系统更新
10.00 元
152. Drupal系统初始安装逻辑
免费
153. 完结篇，云客drupal源码分析系列终于完成了
免费
154. 前后端解耦Drupal JSON API
免费
155.发起HTTP请求GuzzleHttp
免费
156. Drupal移动APP、物联网开发之RESTful使用篇
免费

云客在 7. 缓存系统Cache中留言：

回复你的第一个问题：
配置和路由储存到数据库主要是高负载架构问题，在大型系统中，会有多台WEB服务器对一个数据库，数据库还会做主从分离，这种情况下，如果放在某台服务器的文件系统中，其他服务器怎么访问呢？
第二个问题，缓存三要素引起缓存失效时，会更新缓存系统

晴空在进阶篇8. 实践：首页模板的制作4——转换3中留言：

代码肯定没有问题。

{{ page.xxx }} 这条命令，是在page模版中打印“区域”的官方规定，这个规定从drupal8开始到现在已经有将近7年时间了，从来没有变过。这里的重点在于:

晴空在 153. 完结篇，云客drupal源码分析系列终于完成了中留言：

George Bernard Shaw said “The reasonable man adapts himself to the world; the unreasonable one persists in trying to adapt the world to himself. Therefore, all progress depends on the unreasonable man.”

萧伯纳说，识时务的人适应社会。不识时务的人坚持试着让世界适应自己。因此，所有的进步，都有赖于那不识时务的人。

在这个信息爆炸、标题党横行、只要你稍微有点追求你就会特别焦虑——偏偏到处都还喜欢贩卖焦虑的时代里，你可以很容易的发现这样一件事实：写小众技术类书籍和写言情、穿越小说是完全不一样的。因为人家一天的销量能顶你三年。

龙马在基础篇40. 总结中留言：

基础篇看完了，晴空兄站从网站开发的全局视角编写本教程，可谓颇具匠心，能阅读到此教程，也是Drupaler之幸。感谢分享！

云客在司南讲Drupal8电子商务解决方案中留言：

很赞，具备开创性的资料，弥补了这一方面的空缺

晴空在司南讲Drupal8电子商务解决方案中留言：

非常宝贵的经验分享，谢谢司南！！

晴空在进阶篇9. 控制主题中的库及其加载的文件中留言：

我已经指导过了，本来想等楼上这位自己来总结的，但是他比我忙。

请大家记住，除非你在后台设置过，不然一般情况下你的网站的前端页面是由两个主题控制的，他们一个是前台主题，另一个是后台管理主题（一般是seven主题）。当管理员或者用户试图从前台添加节点时，就会自动使用管理主题。你可以在“外观”页面的最下方取消“当编辑和创建内容时使用管理化主题”这个选项来强制网站系统在前端只使用你写的主题。

本节所说的在主题中控制库的前提是这个主题被当前页面所启用。如果主题没有被启用，那你无法在这个没有被启用的主题中控制任何库。

具体过程我就不细说了，不管用的原因有两个：

第一、楼上加载css的时候没有用库，直接写到模板里了，这样做违背了Drupal的规范。上面说的操作库的方法，前提是你首先得有一个库。

第二、楼上在自己的前台主题中尝试去控制后台管理页面所加载的库。

这是行不通的。

这告诉我们，1.把基础概念搞清楚、2.保持思路清晰、3.仔细阅读文档，才是避免自己掉到坑里的不二法门。

晴空在基础篇8. 开启并创建settings.local.php文件中留言：

好多人都遇到过类似的问题，原因五花八门，总结下来就是不细心，以为自己按照教程操作了，但是其实在细节上有偏差。

排除错误的方法很简单，把所有的步骤全部重新做一遍，核对文件名、文件路径、清空缓存等。

其实你上面说的两句话，我都无法验证，是否“按照教程操作了”，你还得自己验证；

“没有生效”，这是个结论不是现象，你是如何得出的结论？

wow-yorick 在 65. 表单Form API中留言：

赞，感谢您的分享

云客在基础篇40. 总结中留言：

仔细看完了，写的很好，学习大多时候是为了造就有价值的产品，能站在项目层面考虑问题是很多人不具备的，人的能力有限协作才是方向，这是门学问