跳到主要内容

JEP 459:字符串模板(第二次预览)

QWen Max 中英对照 JEP 459: String Templates (Second Preview)

总结

通过字符串模板增强 Java 编程语言。字符串模板通过将文本字面量与嵌入式表达式和模板处理器相结合,补充了 Java 现有的字符串字面量和文本块,从而生成专门的结果。这是一个预览语言功能和 API

历史

字符串模板最初由 JEP 430 在 JDK 21 中作为预览功能提出。我们在此提议进行第二次预览,以获取更多的经验与反馈。除了模板表达式类型的技术性更改外,与第一次预览相比没有其他变化。

目标

  • 通过简化在运行时计算值的字符串表达,简化 Java 程序的编写。

  • 提高混合文本和表达式表达式的可读性,无论文本是否适合单个源代码行(如字符串字面量)或跨越多个源代码行(如文本块)。

  • 通过支持对模板及其嵌入表达式的值进行验证和转换,提高从用户提供的值组合字符串并将其传递给其他系统(例如,为数据库构建查询)的 Java 程序的安全性。

  • 通过允许 Java 库定义字符串模板中使用的格式化语法,保持灵活性。

  • 简化接受非 Java 语言编写的字符串的 API 的使用(例如,SQL、XML 和 JSON)。

  • 允许从字面文本和嵌入表达式创建非字符串值,而无需通过中间字符串表示。

非目标

  • 由于这会绕过验证的目标,因此引入字符串连接运算符(+)的语法糖并不是目标。

  • 传统上用于复杂或程序化字符串组合的 StringBuilderStringBuffer 类,其不推荐使用或移除并不是目标。

动机

开发者通常会从文字文本和表达式的组合中构建字符串。Java 语言和 API 提供了多种字符串合成的机制,但不幸的是,这些方法都有其缺点。

  • 使用 + 运算符进行字符串连接会产生难以阅读的代码:

    String s = x + " plus " + y + " equals " + (x + y);
  • StringBuilder 过于冗长:

    String s = new StringBuilder()
    .append(x)
    .append(" plus ")
    .append(y)
    .append(" equals ")
    .append(x + y)
    .toString();
  • String::formatString::formatted 将格式字符串与参数分离,容易引发元数和类型不匹配的问题:

    String s = String.format("%2$d plus %1$d equals %3$d", x, y, x + y);
    String t = "%2$d plus %1$d equals %3$d".formatted(x, y, x + y);
  • java.text.MessageFormat 需要过多的仪式感,并且在格式字符串中使用了不熟悉的语法:

    MessageFormat mf = new MessageFormat("{0} plus {1} equals {2}");
    String s = mf.format(x, y, x + y);

字符串插值

许多编程语言提供了字符串插值作为字符串连接的替代方案。通常,这会采用包含嵌入表达式和字面文本的字符串字面量形式。在原地嵌入表达式意味着读者可以轻松辨别预期的结果。在运行时,嵌入的表达式会被它们的(字符串化的)值替换 —— 这些值被称为插入到字符串中。以下是一些其他语言中插值的例子:

C#

$"{x} plus {y} equals {x + y}"

Visual Basic

$"{x} plus {y} equals {x + y}"

Python

f"{x} plus {y} equals {x + y}"

Scala

s"$x plus $y equals ${x + y}"

Groovy

"$x plus $y equals ${x + y}"

Kotlin

"$x plus $y equals ${x + y}"

JavaScript

`${x} plus ${y} equals ${x + y}`

Ruby

"#{x} plus #{y} equals #{x + y}"

Swift

"\(x) plus \(y) equals \(x + y)"

其中一些语言对所有字符串字面量启用插值,而另一些语言则要求在需要时启用插值,例如,在字面量的起始分隔符前加上 $f。嵌入式表达式的语法也各不相同,但通常涉及 ${ } 等字符,这意味着除非这些字符被转义,否则它们不能按字面意思出现。

编写代码时,插值不仅比拼接更方便,而且在阅读代码时也提供了更高的清晰度。对于较大的字符串,这种清晰度尤为显著。例如,在 JavaScript 中:

const title = "My Web Page";
const text = "Hello, world";

var html = `<html>
<head>
<title>${title}</title>
</head>
<body>
<p>${text}</p>
</body>
</html>`;

字符串插值是危险的

不幸的是,插值的便利性有一个缺点:很容易构造出会被其他系统解释但在这些系统中却存在危险错误的字符串。

包含 SQL 语句、HTML/XML 文档、JSON 片段、Shell 脚本以及自然语言文本的字符串,都需要根据特定领域的规则进行验证和清理。由于 Java 编程语言无法强制执行所有这些规则,因此使用插值的开发者需要负责验证和清理。通常,这意味着要记得将嵌入的表达式包装在 escapevalidate 方法的调用中,并依靠 IDE 或 静态分析工具 来帮助验证字面文本。

插值对 SQL 语句尤其危险,因为它可能导致注入攻击。例如,考虑以下包含嵌入式表达式 ${name} 的假设 Java 代码:

String query = "SELECT * FROM Person p WHERE p.last_name = '${name}'";
ResultSet rs = connection.createStatement().executeQuery(query);

如果 name 具有麻烦的值

Smith' OR p.last_name <> 'Smith

那么查询字符串将是

SELECT * FROM Person p WHERE p.last_name = 'Smith' OR p.last_name <> 'Smith'

并且代码会选择所有行,可能会暴露保密信息。使用简单插值法构成查询字符串和使用传统的连接方法构成它一样不安全:

String query = "SELECT * FROM Person p WHERE p.last_name = '" + name + "'";

我们可以做得更好吗?

对于 Java 平台,我们希望拥有一项字符串合成特性,该特性能够达到插值的清晰度,同时开箱即用地实现更安全的结果,或许可以通过牺牲少量的便利性来获得更大的安全性。

例如,在编写 SQL 语句时,嵌入表达式值中的任何引号都必须进行转义,并且整体字符串必须具有平衡的引号。考虑到上面显示的 name 的麻烦值,应该编写的安全查询为:

SELECT * FROM Person p WHERE p.last_name = '\'Smith\' OR p.last_name <> \'Smith\''

几乎每个字符串插值的使用都涉及到将字符串结构化以适应某种模板:SQL 语句通常遵循 SELECT ... FROM ... WHERE ... 的模板,HTML 文档遵循 <html> ... </html> 的模板,甚至自然语言中的消息也遵循一种在字面文本中穿插动态值(例如用户名)的模板。每种模板都有其验证和转换规则,例如 SQL 语句需要“转义所有引号”,HTML 文档要求“只允许合法的字符实体”,而自然语言消息则需“根据操作系统配置的语言进行本地化”。

理想情况下,字符串的模板可以直接在代码中表达,就像注释字符串一样,Java 运行时会自动对字符串应用特定于模板的规则。结果将是带有转义引号的 SQL 语句、没有非法实体的 HTML 文档以及没有样板代码的消息本地化。从模板构建字符串可以免去开发者逐一繁琐地转义每个嵌入式表达式、对整个字符串调用 validate() 或使用 java.util.ResourceBundle 查找本地化字符串的麻烦。

再比如,我们可以构建一个表示 JSON 文档的字符串,然后将其传递给 JSON 解析器,以获得强类型的 JSONObject

String name    = "Joan Smith";
String phone = "555-123-4567";
String address = "1 Maple Drive, Anytown";
String json = """
{
"name": "%s",
"phone": "%s",
"address": "%s"
}
""".formatted(name, phone, address);

JSONObject doc = JSON.parse(json);
... doc.entrySet().stream().map(...) ...

理想情况下,字符串的 JSON 结构可以直接在代码中表达,并且 Java 运行时会自动将字符串转换为 JSONObject。通过解析器的手动迂回操作将不再必要。

总之,如果我们有一个一流的支持模板的字符串组合机制,我们几乎可以提高每个 Java 程序的可读性和可靠性。这样的特性将提供插值的好处(在其他编程语言中可以看到),但不太容易引入安全漏洞。它还将减少处理以字符串作为复杂输入的库时的繁文缛节。

描述

模板表达式 是 Java 编程语言中的一种新型表达式。模板表达式可以执行字符串插值,而且还可以编程,有助于开发者安全高效地组合字符串。此外,模板表达式的功能不仅限于组合字符串 —— 它们可以根据特定领域的规则将结构化文本转换为任何类型的对象。

从语法上看,模板表达式类似于带前缀的字符串字面量。此代码的第二行有一个模板表达式:

String name = "Joan";
String info = STR."My name is \{name}";
assert info.equals("My name is Joan"); // true

模板表达式 STR."My name is \{name}" 由以下部分组成:

  1. 一个模板处理器STR);
  2. 一个点字符(U+002E),在其他类型的表达式中也可以看到;以及
  3. 一个模板"My name is \{name}"),其中包含一个嵌入式表达式\{name})。

当模板表达式在运行时被求值时,其模板处理器会将模板中的文字与嵌入表达式的值结合起来,以生成结果。模板处理器的结果,也就是模板表达式求值的结果,通常是一个 String —— 但并不总是如此。

STR 模板处理器

STR 是 Java 平台中定义的一个模板处理器。它通过将模板中的每个嵌入式表达式替换为该表达式的(字符串化)值来执行字符串插值。使用 STR 的模板表达式求值结果是一个 String;例如,"My name is Joan"

在日常对话中,开发人员在提到整个模板表达式(包括模板处理器)或模板表达式中的模板部分(即模板处理器的参数)时,都可能会使用“模板”这个术语。只要注意不要混淆这些概念,这种非正式用法是合理的。

STR 是一个会自动导入到每个 Java 源文件的 public static final 字段。

以下是使用 STR 模板处理器的模板表达式的更多示例。左边距中的符号 | 表示该行显示前一条语句的值,类似于 jshell

// Embedded expressions can be strings
String firstName = "Bill";
String lastName = "Duck";
String fullName = STR."\{firstName} \{lastName}";
| "Bill Duck"
String sortName = STR."\{lastName}, \{firstName}";
| "Duck, Bill"

// Embedded expressions can perform arithmetic
int x = 10, y = 20;
String s = STR."\{x} + \{y} = \{x + y}";
| "10 + 20 = 30"

// Embedded expressions can invoke methods and access fields
String s = STR."You have a \{getOfferType()} waiting for you!";
| "You have a gift waiting for you!"
String t = STR."Access at \{req.date} \{req.time} from \{req.ipAddress}";
| "Access at 2022-03-25 15:34 from 8.8.8.8"

为了帮助重构,双引号字符可以在嵌入式表达式内部使用,而无需将其转义为 \"。这意味着嵌入式表达式可以完全像在模板表达式外部一样出现在模板表达式中,从而简化了从串联 (+) 到模板表达式的转换。例如:

String filePath = "tmp.dat";
File file = new File(filePath);
String old = "The file " + filePath + " " + (file.exists() ? "does" : "does not") + " exist";
String msg = STR."The file \{filePath} \{file.exists() ? "does" : "does not"} exist";
| "The file tmp.dat does exist" or "The file tmp.dat does not exist"

为了提高可读性,嵌入式表达式可以在源文件中跨多行展开,而不会在结果中引入换行符。嵌入式表达式的值会在 \ 所在的位置插入到结果中;然后模板被视为在同一行继续。例如:

String time = STR."The time is \{
// The java.time.format package is very useful
DateTimeFormatter
.ofPattern("HH:mm:ss")
.format(LocalTime.now())
} right now";
| "The time is 12:34:56 right now"

字符串模板表达式中嵌入表达式的数量没有限制。嵌入表达式会从左到右进行求值,就像方法调用表达式中的参数一样。例如:

// Embedded expressions can be postfix increment expressions
int index = 0;
String data = STR."\{index++}, \{index++}, \{index++}, \{index++}";
| "0, 1, 2, 3"

任何 Java 表达式都可以用作嵌入式表达式 —— 甚至是模板表达式。例如:

// Embedded expression is a (nested) template expression
String[] fruit = { "apples", "oranges", "peaches" };
String s = STR."\{fruit[0]}, \{STR."\{fruit[1]}, \{fruit[2]}"}";
| "apples, oranges, peaches"

这里的模板表达式 STR."\{fruit[1]}, \{fruit[2]}" 嵌套在另一个模板表达式的模板中。由于存在大量的 "\{ } 字符,这段代码难以阅读,因此最好将其格式化为:

String s = STR."\{fruit[0]}, \{
STR."\{fruit[1]}, \{fruit[2]}"
}";

或者,由于嵌入的表达式没有副作用,可以将其重构为单独的模板表达式:

String tmp = STR."\{fruit[1]}, \{fruit[2]}";
String s = STR."\{fruit[0]}, \{tmp}";

多行模板表达式

模板表达式的模板可以跨越多行源代码,其语法类似于文本块的语法。(我们在上面看到了一个跨越多行的嵌入式表达式,但包含该嵌入式表达式的模板在逻辑上是一行。)

以下是表示 HTML 文本、JSON 文本和区域表的模板表达式示例,它们都分布在多行上:

String title = "My Web Page";
String text = "Hello, world";
String html = STR."""
<html>
<head>
<title>\{title}</title>
</head>
<body>
<p>\{text}</p>
</body>
</html>
""";
| """
| <html>
| <head>
| <title>My Web Page</title>
| </head>
| <body>
| <p>Hello, world</p>
| </body>
| </html>
| """

String name = "Joan Smith";
String phone = "555-123-4567";
String address = "1 Maple Drive, Anytown";
String json = STR."""
{
"name": "\{name}",
"phone": "\{phone}",
"address": "\{address}"
}
""";
| """
| {
| "name": "Joan Smith",
| "phone": "555-123-4567",
| "address": "1 Maple Drive, Anytown"
| }
| """

record Rectangle(String name, double width, double height) {
double area() {
return width * height;
}
}
Rectangle[] zone = new Rectangle[] {
new Rectangle("Alfa", 17.8, 31.4),
new Rectangle("Bravo", 9.6, 12.4),
new Rectangle("Charlie", 7.1, 11.23),
};
String table = STR."""
Description Width Height Area
\{zone[0].name} \{zone[0].width} \{zone[0].height} \{zone[0].area()}
\{zone[1].name} \{zone[1].width} \{zone[1].height} \{zone[1].area()}
\{zone[2].name} \{zone[2].width} \{zone[2].height} \{zone[2].area()}
Total \{zone[0].area() + zone[1].area() + zone[2].area()}
""";
| """
| Description Width Height Area
| Alfa 17.8 31.4 558.92
| Bravo 9.6 12.4 119.03999999999999
| Charlie 7.1 11.23 79.733
| Total 757.693
| """

FMT 模板处理器

FMT 是 Java 平台中定义的另一个模板处理器。FMT 类似于 STR,因为它执行插值,但它还会解释出现在嵌入表达式左侧的格式说明符。这些格式说明符与 java.util.Formatter 中定义的相同。以下是区域表的示例,模板中的格式说明符使其更加整洁:

record Rectangle(String name, double width, double height) {
double area() {
return width * height;
}
}
Rectangle[] zone = new Rectangle[] {
new Rectangle("Alfa", 17.8, 31.4),
new Rectangle("Bravo", 9.6, 12.4),
new Rectangle("Charlie", 7.1, 11.23),
};
String table = FMT."""
Description Width Height Area
%-12s\{zone[0].name} %7.2f\{zone[0].width} %7.2f\{zone[0].height} %7.2f\{zone[0].area()}
%-12s\{zone[1].name} %7.2f\{zone[1].width} %7.2f\{zone[1].height} %7.2f\{zone[1].area()}
%-12s\{zone[2].name} %7.2f\{zone[2].width} %7.2f\{zone[2].height} %7.2f\{zone[2].area()}
\{" ".repeat(28)} Total %7.2f\{zone[0].area() + zone[1].area() + zone[2].area()}
""";
| """
| Description Width Height Area
| Alfa 17.80 31.40 558.92
| Bravo 9.60 12.40 119.04
| Charlie 7.10 11.23 79.73
| Total 757.69
| """

确保安全

模板表达式 STR."..." 是调用 STR 模板处理器的 process 方法的快捷方式。也就是说,现在熟悉的例子如下:

String name = "Joan";
String info = STR."My name is \{name}";

等价于:

String name = "Joan";
StringTemplate st = RAW."My name is \{name}";
String info = STR.process(st);

其中 RAW 是一个标准模板处理器,它会生成一个未经处理的 StringTemplate 对象。

模板表达式的设计故意使得无法直接从带有嵌入表达式的字符串字面量或文本块生成插值了表达式值的 String。这防止了危险的错误字符串在程序中传播。字符串字面量由模板处理器处理,该处理器负有安全插值和验证结果(无论是 String 还是其他类型)的明确责任。因此,如果我们忘记使用诸如 STRRAWFMT 之类的模板处理器,则会报告编译时错误:

String name = "Joan";
String info = "My name is \{name}";
| error: processor missing from template expression

语法和语义

模板表达式中的四种模板通过其语法展示,该语法从 TemplateExpression 开始:

TemplateExpression:
TemplateProcessor . TemplateArgument

TemplateProcessor:
Expression

TemplateArgument:
Template
StringLiteral
TextBlock

Template:
StringTemplate
TextBlockTemplate

StringTemplate:
Resembles a StringLiteral but has one or more embedded expressions

TextBlockTemplate:
Resembles a TextBlock but has one or more embedded expressions

Java 编译器会扫描术语 "...",并根据是否存在嵌入式表达式来决定将其解析为 StringLiteralStringTemplate。编译器同样会扫描术语 """...""",并确定将其解析为 TextBlockTextBlockTemplate。我们统一将这些术语中的 ... 部分称为 字符串字面量、字符串模板、文本块 或文本块模板的 内容

我们强烈建议 IDE 将字符串模板与字符串字面量,以及文本块模板与文本块在视觉上区分开来。在字符串模板或文本块模板的内容中,IDE 应该将嵌入式表达式与字面量文本在视觉上区分开来。

Java 编程语言区分字符串字面量和字符串模板,以及文本块和文本块模板,主要是因为字符串模板或文本块模板的类型并非我们熟悉的 java.lang.String。字符串模板或文本块模板的类型是 java.lang.StringTemplate,这是一个接口,而 String 并未实现 StringTemplate。因此,当模板表达式的模板是一个字符串字面量或文本块时,Java 编译器会自动将模板所表示的 String 转换为一个没有嵌入表达式的 StringTemplate

TemplateExpression 中,TemplateProcessor 的类型必须是 StringTemplate.Processor 的子类型。模板表达式的类型是 TemplateProcessor 类型中 process(StringTemplate) 方法的返回类型。如果该方法抛出受检异常,则模板表达式必须包裹在 try-catch 块中,或者封闭方法必须声明抛出这些异常;更多细节请参见下文

在运行时,模板表达式的求值过程如下:

  1. TemplateProcessor 表达式进行求值,以获取 StringTemplate.Processor 接口的实例,即模板处理器。

  2. TemplateArgument 表达式进行求值,以获取 StringTemplate 的实例。

  3. StringTemplate 实例传递给 StringTemplate.Processor 实例的 process 方法,该方法生成一个结果。

模板处理器在运行时执行,而不是在编译时执行,因此它们无法对模板执行编译时处理。它们既不能获取出现在源代码中模板的确切字符,也无法获得嵌入表达式本身,只能获得嵌入表达式的值。

模板表达式中的字符串字面量

使用字符串字面量或文本块作为模板参数的能力提高了模板表达式的灵活性。开发者可以编写模板表达式,其中最初在字符串字面量中包含占位符文本,例如:

String s = STR."Welcome to your account";
| "Welcome to your account"

并逐渐将表达式嵌入到文本中,以创建一个字符串模板,而不改变任何分隔符或插入任何特殊前缀:

String s = STR."Welcome, \{user.firstName()}, to your account \{user.accountNumber()}";
| "Welcome, Lisa, to your account 12345"

用户自定义模板处理器

前面我们看到了模板处理器 STRFMT,它们使得模板处理器看起来像是通过字段访问的对象。这是一种有用的简写方式,但更准确地说,模板处理器是一个实现了函数式接口 StringTemplate.Processor 的对象实例。具体来说,该对象的类实现了该接口的单一抽象方法 process,该方法接收一个 StringTemplate 并返回一个对象。像 STR 这样的静态字段仅仅存储了这样一个类的实例。(实际存储在 STR 中的类实例的 process 方法执行无状态插值,因此适合使用单例实例,这就是为什么字段名是大写的。)

开发者可以轻松创建用于模板表达式的模板处理器。然而,在讨论如何创建模板处理器之前,我们必须先讨论 StringTemplate 类。

StringTemplate 的一个实例表示字符串模板或文本块模板,它作为模板表达式中的模板出现。考虑以下代码:

int x = 10, y = 20;
StringTemplate st = RAW."\{x} plus \{y} equals \{x + y}";
String s = st.toString();
| StringTemplate{ fragments = [ "", " plus ", " equals ", "" ], values = [10, 20, 30] }

结果可能令人惊讶。102030 插值到文本 " plus "" equals " 中的位置在哪里?回想一下,模板表达式的目标之一是提供安全的字符串组合。如果让 StringTemplate::toString 简单地将 "10"" plus ""20"" equals ""30" 拼接成一个 String,就会绕过这一目标。相反,toString 方法会渲染 StringTemplate 的两个有用部分:

  • 文本 片段"", " plus ", " equals ", "",以及
  • 10, 20, 30

StringTemplate 类直接暴露了这些部分:

  • StringTemplate::fragments 返回字符串模板或文本块模板中嵌入表达式前后文本片段的列表:

    int x = 10, y = 20;
    StringTemplate st = RAW."\{x} plus \{y} equals \{x + y}";
    List<String> fragments = st.fragments();
    String result = String.join("\\{}", fragments);
    | "\{} plus \{} equals \{}"
  • StringTemplate::values 返回按源代码中出现的顺序评估嵌入表达式所产生的值列表。在当前示例中,这等价于 List.of(x, y, x + y)

    int x = 10, y = 20;
    StringTemplate st = RAW."\{x} plus \{y} equals \{x + y}";
    List<Object> values = st.values();
    | [10, 20, 30]

StringTemplatefragments() 在模板表达式的所有计算过程中保持不变,而 values() 则在每次计算时都会重新生成。例如:

int y = 20;
for (int x = 0; x < 3; x++) {
StringTemplate st = RAW."\{x} plus \{y} equals \{x + y}";
System.out.println(st);
}
| ["Adding ", " and ", " yields ", ""](0, 20, 20)
| ["Adding ", " and ", " yields ", ""](1, 20, 21)
| ["Adding ", " and ", " yields ", ""](2, 20, 22)

使用 fragments()values(),我们可以通过将 lambda 表达式传递给静态工厂方法 StringTemplate.Processor::of 来轻松创建一个插值模板处理器:

var INTER = StringTemplate.Processor.of((StringTemplate st) -> {
String placeHolder = "•";
String stencil = String.join(placeHolder, st.fragments());
for (Object value : st.values()) {
String v = String.valueOf(value);
stencil = stencil.replaceFirst(placeHolder, v);
}
return stencil;
});

int x = 10, y = 20;
String s = INTER."\{x} plus \{y} equals \{x + y}";
| 10 plus 20 equals 30

我们可以通过利用这样一个事实来提高这个插值模板处理器的效率:每个模板代表片段和值交替出现的序列,我们可以基于片段和值构建其结果:

var INTER = StringTemplate.Processor.of((StringTemplate st) -> {
StringBuilder sb = new StringBuilder();
Iterator<String> fragIter = st.fragments().iterator();
for (Object value : st.values()) {
sb.append(fragIter.next());
sb.append(value);
}
sb.append(fragIter.next());
return sb.toString();
});

int x = 10, y = 20;
String s = INTER."\{x} plus \{y} equals \{x + y}";
| 10 and 20 equals 30

工具方法 StringTemplate::interpolate 做了同样的事情,依次连接片段和值:

var INTER = StringTemplate.Processor.of(StringTemplate::interpolate);

鉴于嵌入式表达式的值通常不可预测,模板处理器对其生成的 String 进行驻留(intern)通常是不值得的。例如,STR 不会驻留其结果。然而,如果需要的话,创建一个进行驻留和插值的模板处理器非常简单:

var INTERN = StringTemplate.Processor.of(st -> st.interpolate().intern());

模板处理器 API

到目前为止,所有的示例都使用工厂方法 StringTemplate.Processor::of 创建了模板处理器。这些示例处理器返回 String 类型的实例,并且不会抛出异常,因此使用它们的模板表达式将始终成功求值。

相比之下,直接实现 StringTemplate.Processor 接口的模板处理器可以完全通用。它可以返回任何类型的对象,而不仅仅是 String。如果处理失败,无论是因为模板无效还是由于其他原因(例如 I/O 错误),它还可以抛出受检异常。如果模板处理器抛出受检异常,那么在模板表达式中使用它的开发者必须通过 try-catch 语句处理处理失败的情况,或者将异常传播给调用者。

StringTemplate.Processor 接口的声明如下:

package java.lang;
public interface StringTemplate {
...
@FunctionalInterface
public interface Processor<R, E extends Throwable> {
R process(StringTemplate st) throws E;
}
...
}

前面显示的插值字符串的代码:

var INTER = StringTemplate.Processor.of(StringTemplate::interpolate);
...
String s = INTER."\{x} plus \{y} equals \{x + y}";

等价于:

StringTemplate.Processor<String, RuntimeException> INTER =
StringTemplate.Processor.of(StringTemplate::interpolate);
...
String s = INTER."\{x} plus \{y} equals \{x + y}";

模板表达式 INTER."..." 的类型由 INTER 类型的第一个类型参数指定,即 String。模板处理器 INTER 抛出的受检异常由 INTER 类型的第二个类型参数指定。INTER 不抛出任何受检异常,但由于第二个类型参数是必需的,我们必须通过指定一个非受检异常(RuntimeException)来表达这一事实。

下面是一个模板处理器,它返回的不是字符串,而是 JSONObject 的实例:

var JSON = StringTemplate.Processor.of(
(StringTemplate st) -> new JSONObject(st.interpolate())
);

String name = "Joan Smith";
String phone = "555-123-4567";
String address = "1 Maple Drive, Anytown";
JSONObject doc = JSON."""
{
"name": "\{name}",
"phone": "\{phone}",
"address": "\{address}"
};
""";

上面的 JSON 声明等价于:

StringTemplate.Processor<JSONObject, RuntimeException> JSON =
StringTemplate.Processor.of(
(StringTemplate st) -> new JSONObject(st.interpolate())
);

比较第一个类型参数 JSONObject 与上面 INTER 的第一个类型参数 String

这个假设的 JSON 处理器的用户永远看不到 st.interpolate() 生成的 String。然而,以这种方式使用 st.interpolate() 可能会将注入漏洞传播到 JSON 结果中。我们可以谨慎一些,修改代码以先检查模板的值,如果某个值可疑,则抛出一个受检异常 JSONException

StringTemplate.Processor<JSONObject, JSONException> JSON_VALIDATE =
(StringTemplate st) -> {
String quote = "\"";
List<Object> filtered = new ArrayList<>();
for (Object value : st.values()) {
if (value instanceof String str) {
if (str.contains(quote)) {
throw new JSONException("Injection vulnerability");
}
filtered.add(quote + str + quote);
} else if (value instanceof Number ||
value instanceof Boolean) {
filtered.add(value);
} else {
throw new JSONException("Invalid value type");
}
}
String jsonSource =
StringTemplate.interpolate(st.fragments(), filtered);
return new JSONObject(jsonSource);
};

String name = "Joan Smith";
String phone = "555-123-4567";
String address = "1 Maple Drive, Anytown";
try {
JSONObject doc = JSON_VALIDATE."""
{
"name": \{name},
"phone": \{phone},
"address": \{address}
};
""";
} catch (JSONException ex) {
...
}

这个版本的模板处理器抛出一个受检异常,因此我们不能使用工厂方法 StringTemplate.Processor::of 来创建它。相反,我们直接在右侧使用 lambda 表达式。反过来,这意味着我们不能在左侧使用 var,因为语言要求为 lambda 表达式指定一个明确的目标类型。

为了提高效率,我们可以通过将模板片段编译为带有占位符值的 JSONObject 并缓存结果,来对这个模板处理器进行记忆化。如果处理器的下一次调用使用了相同的片段,那么它可以将嵌入表达式的值注入到缓存对象的新深层副本中;这样在任何地方都不会有中间的 String 产生。

安全地编写和执行数据库查询

下面的模板处理器类 QueryBuilder 首先从字符串模板创建一个 SQL 查询字符串。然后,它从该查询字符串创建一个 JDBC PreparedStatement,并将其参数设置为嵌入表达式的值。

record QueryBuilder(Connection conn)
implements StringTemplate.Processor<PreparedStatement, SQLException> {

public PreparedStatement process(StringTemplate st) throws SQLException {
// 1. Replace StringTemplate placeholders with PreparedStatement placeholders
String query = String.join("?", st.fragments());

// 2. Create the PreparedStatement on the connection
PreparedStatement ps = conn.prepareStatement(query);

// 3. Set parameters of the PreparedStatement
int index = 1;
for (Object value : st.values()) {
switch (value) {
case Integer i -> ps.setInt(index++, i);
case Float f -> ps.setFloat(index++, f);
case Double d -> ps.setDouble(index++, d);
case Boolean b -> ps.setBoolean(index++, b);
default -> ps.setString(index++, String.valueOf(value));
}
}

return ps;
}
}

如果我们要为特定的 Connection 实例化这个假设的 QueryBuilder

var DB = new QueryBuilder(conn);

然后代替不安全的、容易受到注入攻击的代码

String query = "SELECT * FROM Person p WHERE p.last_name = '" + name + "'";
ResultSet rs = conn.createStatement().executeQuery(query);

我们可以编写更安全、更易读的代码

PreparedStatement ps = DB."SELECT * FROM Person p WHERE p.last_name = \{name}";
ResultSet rs = ps.executeQuery();

让模板处理器本身执行查询并返回 ResultSet 似乎很方便,这样我们就可以简单地写成:

ResultSet rs = DB."SELECT ...";

然而,模板处理器触发可能会长时间运行的操作以生成结果是不明智的。处理器采取可能产生副作用的操作(例如更新数据库)也是不明智的。强烈建议模板处理器的作者专注于验证其输入,并生成一个为调用者提供最大灵活性的结果。

简化本地化

FMT 模板处理器(如前文所示)是模板处理器类 java.util.FormatProcessor 的一个实例。尽管 FMT 使用默认的语言环境,但通过不同的方式实例化该类,可以轻松创建适用于其他语言环境的模板处理器。例如,以下代码为泰语语言环境创建了一个模板处理器:

Locale thaiLocale = Locale.forLanguageTag("th-TH-u-nu-thai");
FormatProcessor THAI = new FormatProcessor(thaiLocale);
for (int i = 1; i <= 10000; i *= 10) {
String s = THAI."This answer is %5d\{i}";
System.out.println(s);
}
| This answer is ๑
| This answer is ๑๐
| This answer is ๑๐๐
| This answer is ๑๐๐๐
| This answer is ๑๐๐๐๐

简化资源包的使用

下面的模板处理器类 LocalizationProcessor 简化了资源包的操作。对于给定的区域设置,它将字符串映射到资源包中对应的属性。

record LocalizationProcessor(Locale locale)
implements StringTemplate.Processor<String, RuntimeException> {

public String process(StringTemplate st) {
ResourceBundle resource = ResourceBundle.getBundle("resources", locale);
String stencil = String.join("_", st.fragments());
String msgFormat = resource.getString(stencil.replace(' ', '.'));
return MessageFormat.format(msgFormat, st.values().toArray());
}
}

假设每个语言环境都有一个属性文件资源包:

# resources_en_CA.properties file
no.suitable._.found.for._(_)=\
no suitable {0} found for {1}({2})

# resources_zh_CN.properties file
no.suitable._.found.for._(_)=\
\u5BF9\u4E8E{1}({2}), \u627E\u4E0D\u5230\u5408\u9002\u7684{0}

# resources_jp.properties file
no.suitable._.found.for._(_)=\
{1}\u306B\u9069\u5207\u306A{0}\u304C\u898B\u3064\u304B\u308A\u307E\u305B\u3093({2})

然后,程序可以根据属性组成一个本地化的字符串:

var userLocale = Locale.of("en", "CA");
var LOCALIZE = new LocalizationProcessor(userLocale);
...
var symbolKind = "field", name = "tax", type = "double";
System.out.println(LOCALIZE."no suitable \{symbolKind} found for \{name}(\{type})");

模板处理器会将字符串映射到本地化资源包中相应的属性:

no suitable field found for tax(double)

如果程序转而执行了

var userLocale = Locale.of("zh", "CN");

那么输出将是:

对于tax(double), 找不到合适的field

最后,如果程序转而执行

var userLocale = Locale.of("ja");

那么输出将是:

taxに適切なfieldが見つかりません(double)

替代方案

  • 一种替代设计允许在没有模板处理器的情况下使用字符串模板,并执行基本的字符串插值。例如:

    String s = "\{x} + \{y} = \{x + y}";

    然而,这种设计将违反安全性目标。例如,使用插值构造 SQL 查询将会非常诱人,而这总体上会降低 Java 程序的安全性。始终要求一个模板处理器可以确保开发者至少认识到字符串模板中可能存在特定领域的规则。

  • 模板处理器的视觉显著性,比如 STR 出现在字符串模板之前,并不是严格必要的。我们可以选择将处理器作为参数传递给 StringTemplate::process 方法。例如:

    String s = "The answer is %5d\{i}".process(FMT);

    然而,让模板处理器出现在第一位是更优的选择,因为模板表达式求值的结果完全依赖于模板处理器的操作。

  • 对于字符串模板中的嵌入式表达式,我们考虑过采用 Java EE 表达式语言 (EL)${...} 语法,而不是 \{...}。然而,这将迫使开发者在字符串模板的文字部分转义每个 $ 符号,同时继续在字符串字面量和文本块中无需转义地书写 $。这种不一致性很容易导致错误。

    此外,在字符串字面量和文本块中使用 EL 的代码迁移到字符串模板时将特别棘手:${...} 的含义会发生变化,因为它现在由 Java 语言而非框架决定。例如,字符串模板 "Hello ${user.name}" 将不再指代 EL 解释器上下文中的 user 对象,而是指源代码作用域中的 user 变量。再比如,包含嵌入式表达式 ${header['user-agent']}${empty param.Customer} 的字符串模板将无法编译,因为 header['user-agent']empty param.Customer 不是合法的 Java 表达式。必须对大多数 EL 表达式的 $ 符号进行转义,以防止 Java 语言将其视为自己的嵌入式表达式,这将是十分痛苦的。

    使用我们选择的语法,框架可以通过提供理解 EL 语法的模板处理器来简化迁移。开发者可以继续使用 ${...},同时通过 \{...} 访问 Java 环境:

    EL."""
    Hello ${user.name}
    \{server.isBusy() ? "Please try later" : ""}
    """
  • 我们还考虑了使用不同的分隔符,如 \[...]\(...),但 [ ]( ) 很可能出现在嵌入式表达式中。{ } 出现的可能性较小,这使得更容易直观判断嵌入式表达式的起止位置。

  • 我们本可以像 C# 那样将格式说明符直接嵌入到字符串模板中:

    var date = DateTime.Now;
    Console.WriteLine($"The time is {date:HH:mm}");

    然而,这将需要每次引入新的格式说明符时都对 Java 语言规范进行更改。