自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

你可能不知道的字符串分割技巧

作者：前端小智 2022-12-21 08:05:04

開(kāi)發(fā) 前端

Intl.Segmenter 是一個(gè) JavaScript 對(duì)象，用于對(duì)文本進(jìn)行區(qū)域設(shè)置敏感的分段。它可以幫助我們從字符串中提取有意義的項(xiàng)目，如單詞、句子或字形。

最近看到一個(gè)拆分字符串的新方式，就是使用Intl.Segmenter將emoji字符串分割成字形的方法。

我以前都沒(méi)用過(guò)這個(gè)Intl對(duì)象，現(xiàn)在我們一起來(lái)看看。

假設(shè)你想把用戶(hù)輸入拆分成句子，看起來(lái)是一個(gè)簡(jiǎn)單的 split() 任務(wù)...但這個(gè)問(wèn)題有很多細(xì)微之處。

'Hello! How are you?'.split(/[.!?]/);
// ['Hello', ' How are you', '']

使用 split() 會(huì)丟失定義的分隔符，并在所有地方包含這些空格。而且因?yàn)樗蕾?lài)于硬編碼的分隔符，所以對(duì)語(yǔ)言不敏感。

我不懂日語(yǔ)，但你會(huì)如何嘗試將下面的字符串分割成單詞或句子？

// I am a cat. My name is Tanuki.
'吾輩は貓である。名前はたぬき。'

普通的字符串方法在這里是沒(méi)有用的，但是Intl JavaScript API 確能解決這個(gè)問(wèn)題。

Intl.Segmenter 來(lái)救場(chǎng)

Intl.Segmenter 是一個(gè) JavaScript 對(duì)象，用于對(duì)文本進(jìn)行區(qū)域設(shè)置敏感的分段。它可以幫助我們從字符串中提取有意義的項(xiàng)目，如單詞、句子或字形。它的使用方式類(lèi)似于其他的構(gòu)造函數(shù)，可以使用 new 關(guān)鍵字來(lái)創(chuàng)建一個(gè) Intl.Segmenter 對(duì)象。

const segmenter = new Intl.Segmenter(locale, { granularity: "word" });

在上面的代碼中，locale 是字符串，表示要使用的區(qū)域設(shè)置。granularity 是字符串，表示分段的粒度。它可以是 "grapheme"（字形）、"word"（單詞）或 "sentence"（句子）之一。

Intl.Segmenter 有一個(gè)很有用的方法叫做 segment()，它可以將文本拆分為有意義的段。

const segments = segmenter.segment(text);

在上面的代碼中，text 是要拆分的文本，segments 是返回的段的迭代器。你可以使用 for-of 循環(huán)來(lái)遍歷段，或者使用 Array.from() 將它們轉(zhuǎn)換為數(shù)組。

const text = "Hello, world! How are you today?";
const segmenter = new Intl.Segmenter("en-US", { granularity: "sentence" });
const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment);
}

// Output:
// { index: 0, value: "Hello, world!", breakType: "", breakIndex: 12 }
// { index: 13, value: "How are you today?", breakType: "", breakIndex: 31 }

Intl.Segmenter 對(duì)象還有其他一些有用的方法，比如 breakType，用于檢索分段的類(lèi)型（例如，句子的末尾是否包含句號(hào)）。另一個(gè)有用的方法是 breakType，用于檢索分段的類(lèi)型。

例如：

const text = "Hello, world! How are you today?";
const segmenter = new Intl.Segmenter("en-US", { granularity: "sentence" });
const segments = segmenter.segment(text);

for (const segment of segments) {
  console.log(segment.breakType);
}

// Output:
// "exclamation"
// "question"

Intl.Segmenter 還有一個(gè)很有用的靜態(tài)方法叫做 supportedLocalesOf()，它可以幫助你確定瀏覽器是否支持特定的區(qū)域設(shè)置。

const supported = Intl.Segmenter.supportedLocalesOf(["en-US", "zh-CN"]);
console.log(supported);

// Output:
// ['en-US', 'zh-CN']

在上面的代碼中，supported 數(shù)組包含瀏覽器支持的區(qū)域設(shè)置。

如果你想要對(duì)文本進(jìn)行更細(xì)粒度的分段，你可以使用 Intl.ListFormat 對(duì)象。它可以幫助你將文本拆分為有意義的列表項(xiàng)。

使用方式類(lèi)似于 Intl.Segmenter，你可以使用 new 關(guān)鍵字創(chuàng)建一個(gè) Intl.ListFormat 對(duì)象。

const listFormat = new Intl.ListFormat(locale, { style: "long", type: "conjunction" });

在上面的代碼中，locale 是字符串，表示要使用的區(qū)域設(shè)置。style 和 type 是對(duì)象的屬性，用于指定列表格式。style 可以是 "long" 或 "short"，type 可以是 "conjunction"（并列）或 "disjunction"（或）。

Intl.ListFormat 有一個(gè)很有用的方法叫做 format()，它可以將數(shù)組轉(zhuǎn)換為有意義的列表。

const list = ["apple", "banana", "orange"];
const formatted = listFormat.format(list);
console.log(formatted);

// Output:
// "apple, banana, and orange"

在上面的代碼中，formatted 是轉(zhuǎn)換后的列表字符串。

Word 的顆粒度帶有一個(gè)額外的isWordLike屬性

如果把一個(gè)字符串分割成單詞，所有的片段都包括空格和換行符。使用isWordLike屬性將它們過(guò)濾掉。

const segmenterDe = new Intl.Segmenter('de', {
  granularity: 'word'
});
const segmentsDe = segmenterDe.segment('Was geht ab?');

console.log([...segmentsDe]);
// [
//   { segment: 'Was', index: 0, input: 'Was geht ab?', isWordLike: true },
//   { segment: ' ', index: 3, input: 'Was geht ab?', isWordLike: false },
//   ...
// ]

console.log([...segmentsDe].filter(s => s.isWordLike));
// [
//   { segment: 'Was', index: 0, input: 'Was geht ab?', isWordLike: true},
//   { segment: 'geht', index: 4, input: 'Was geht ab?', isWordLike: true },
//   { segment: 'ab', index: 9, input: 'Was geht ab?', isWordLike: true }
// ]

上面通過(guò)isWordLike進(jìn)行過(guò)濾會(huì)刪除標(biāo)點(diǎn)符號(hào)，如.、-、或？。

使用 Intl.Segmenter 來(lái)分割 emojis

如果你想把一個(gè)字符串分割成可視化的emojis，Intl.Segmenter也是一個(gè)很好的幫助。

const emojis = '???????????????';

// ----
// Split by code units
console.log(emojis.split(''));
// ['\uD83E', '\uDEE3', '\uD83E', '\uDEF5', '\uD83D', '\uDE48']

// ----
// Split by code points
console.log([...emojis]);
// ['??', '??', '??', '?', '??', '?', '??', '?', '??']

// ----
// Split by graphemes
const segmenter = new Intl.Segmenter('en', {
  granularity: 'grapheme'
});
const segments = segmenter.segment(emojis);

console.log(Array.from(
  segmenter.segment(emojis),
  s => s.segment
));
// ['??', '??', '???????????']

請(qǐng)注意，字形也包括空格和 "正常 "字符。

編輯中可能存在的bug沒(méi)法實(shí)時(shí)知道，事后為了解決這些bug,花了大量的時(shí)間進(jìn)行l(wèi)og 調(diào)試，這邊順便給大家推薦一個(gè)好用的BUG監(jiān)控工具 Fundebug。

參考

??https://www.stefanjudis.com/today-i-learned/how-to-split-javascript-strings-with-intl-segmenter/??
??https://2ality.com/2022/11/regexp-v-flag.html??

原文：https://www.stefanjudis.com/today-i-learned/how-to-split-javascript-strings-with-intl-segmenter/

最后

本文譯自：https://marmelab.com/blog/2022/09/20/react-i-love-you.html

責(zé)任編輯：武曉燕來(lái)源：大遷世界

字符串分割技巧

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)