もう13時か、
2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50 [PR]FLASHゲームコミュニティー「モゲラ」[PR]  

文字コード総合スレ part5

1 :デフォルトの名無しさん:2009/03/09(月) 01:26:03
プログラマーなら一度は煩わされたことのある文字コードについてのスレです。
ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/

2 :デフォルトの名無しさん:2009/03/09(月) 01:27:06
■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/

3 :デフォルトの名無しさん:2009/03/09(月) 01:28:20
漢字袋
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/
池田証寿
http://homepage3.nifty.com/shikeda/zatsubun.htm
SJIS2004とかJISX213系の文字コード表
http://x0213.org/codetable/
※JISCの奴は無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
Windowsで扱える文字一覧(コードページ毎で良ければ)
http://www.microsoft.com/globaldev/reference/cphome.mspx
docomoの携帯コンテンツ制作者向け文字コード情報
http://www.nttdocomo.co.jp/service/imode/make/
auの携帯コンテンツ制作者向け文字コード情報
http://www.au.kddi.com/ezfactory/
SoftBank携帯コンテンツ制作者向け文字コード情報
http://creation.mb.softbank.jp/
漢字データベース
http://kanji-database.sourceforge.net/index.html


4 :デフォルトの名無しさん:2009/03/09(月) 01:29:08
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
 内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
 機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

5 :デフォルトの名無しさん:2009/03/09(月) 01:30:45
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
 UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
 サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
 ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
  → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。

6 :デフォルトの名無しさん:2009/03/09(月) 01:31:39
■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
http://www1.ttcn.ne.jp/~kaneto/dll/nkf32dll.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/


7 :デフォルトの名無しさん:2009/03/09(月) 11:23:37
RedHatで狽ェ文字化けする。

・(総和の)狽ノついて
cp932でRedHatに持ち込んで、iconvでutf-8に変換できるが表示が化ける。
iconvでeuc-jpには変換できない。
win端末上でeuc-jpとして保存した場合、cygwinのiconvで他のコードに変換できない。
→euc-jpとしては存在しない文字扱い?

・(ギリシャ文字の)Σについて
コード変換は問題ないが、viで開くと1カラム幅の文字と認識するようだ。

8 :デフォルトの名無しさん:2009/03/09(月) 11:45:17
1乙。ようやく立ったか。
しかし>>4-7みたいなのは、Wiki立てて
そこでまとめたほうがいいような気がするな。

9 :7:2009/03/09(月) 12:08:01
あーいや、>7は纏めじゃなくてちょっと気になったから書いたのだけど。
で、今確認したら(当たり前だけど)Σ以外のギリシャ文字も1カラム幅と認識している模様。
実際に使われているフォントは2カラム幅なのに……

10 :デフォルトの名無しさん:2009/03/09(月) 12:35:33
>>7
> →euc-jpとしては存在しない文字扱い?

JISにない。
JIS X 0208にGREEK CAPITAL LETTER SIGMAがあるから、
必要ないと判断された。

GREEK CAPITAL LETTER SIGMAはISO-8859-7にもある。
ただASCIIと違って、JIS X 0208と一緒に使う習慣はなかったから、
FULLWIDTH GREEK CAPITAL LETTER SIGMAというのはない。
LATIN LETTERSとちがって。

11 :7:2009/03/09(月) 12:44:22
>>10
なるほど、半ば呆れつつ納得。THX!

12 :デフォルトの名無しさん:2009/03/09(月) 16:46:00
>人名をソートかけたらバストサイズ順の並びになる?
よくこんなの引っ張り出してきたな

13 :1:2009/03/09(月) 20:15:43
( >>1->>6 の続き)
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。

14 :1:2009/03/09(月) 20:17:32
とりあえず纏めてみた。それでは、マッタリ行ってみよう。

15 :デフォルトの名無しさん:2009/03/09(月) 20:38:52
これ加えとくわ。
Google Standard Unicode Emoji Mapping
http://unicode.org/~mdavis/08080r-emoji-proposal/
Proposal for Encoding Emoji Symbols/N3582
http://unicode.org/~scherer/emoji4unicode/snapshot/emoji.pdf
Emoji Symbols: Background Data
http://unicode.org/~scherer/emoji4unicode/snapshot/full.html

16 :デフォルトの名無しさん:2009/03/10(火) 00:58:55
> References
> *http://en.wikipedia.org/wiki/Japanese_mobile_phone_culture
おいおい
まあファイストスの円盤文字もウィキペディア参照してたけど

つーかもうJTC1/SC2/WG2のサイトにも上がってるみたいなのに
WG2のページトップが更新されてねえ
なので直リンク
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3582.pdf
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3583.pdf

17 :デフォルトの名無しさん:2009/03/10(火) 01:10:32
絵文字とかHistoric Kana(今はKATAKANA LETTER ORIGINAL Eのみ)を含んだ
Amd.7のドラフト
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3580.pdf

18 :デフォルトの名無しさん:2009/03/10(火) 20:44:25
Last Resort Pictures (N3412) が含まれてないけど
あれはやっぱりエイプリルフールのジョークだったってことでいいのかな

19 :デフォルトの名無しさん:2009/03/11(水) 00:35:59
立ってたのか、>>1

20 :デフォルトの名無しさん:2009/03/11(水) 14:27:07
こんなFirefox拡張あるんだな。
Emacsのdescribe-charみたいなやつ。

Character Identifier
https://addons.mozilla.org/ja/firefox/addon/3929

21 :デフォルトの名無しさん:2009/03/11(水) 20:46:58
Ext.Dに「トキ」「トモ」の合字が提案されてるんだが、
Historic Kanaブロックができた以上そっちのほうに入れるべきじゃね?

ってコメントしたいんだけどどうすれば届くのかさっぱりわからん

22 :デフォルトの名無しさん:2009/03/11(水) 20:56:35
>>1
これはポニテでうんぬん

23 :デフォルトの名無しさん:2009/03/12(木) 06:15:19
国旗周りでUnicode listが爆裂してたせいか
国旗もEMOJI COMPATIBILITY CHARACTERみたいな謎の記号に置き換えられてるな

24 :デフォルトの名無しさん:2009/03/12(木) 07:05:23
つーかまたUnicode listが燃え上がってるな

25 :デフォルトの名無しさん:2009/03/13(金) 11:16:41
自分でフォント作って組み込めば無問題。
こわいものなし。

26 :デフォルトの名無しさん:2009/03/13(金) 20:04:47
Unicode-C初期UTF-8エンコードの規格覚えている奴まだ居るか判らないけど、
やはりあの時、言語学者の言うこと等聞かずに、国別にセクション割り当てて、VLEで通すべきだったな。
glyphが多ければ無制限に拡張できる規格。
殆どの言語が一文字3バイトに収まって、ソート問題もなし、政治的配慮もありだったのに。
しくじった。


27 :デフォルトの名無しさん:2009/03/13(金) 20:17:09
collectionや制限部分集合の要素としてglyphic subsetも指定できるように
拡張してくれないかなあ。
要素はあくまでglyphic subsetなので、実装は必ずしもIVSをサポートする必要はない
(してもいいけど)。デフォルトの字形がglyphic subsetの範囲内に収まっていれば、
適合性を主張できることにする。
こうすれば、「新常用漢字の字形を実装したフォント」とか「JIS2004の字形を実装した
フォント」を、規格上曖昧さのない方法で表現できる。規格の行間とかJIS委員が
blogのコメントで吐き捨ててる愚痴まで読まないとまともに実装できないなんて
規格としては不健全きわまりない。
互換漢字大好きの日本代表には少しも期待してないのでUTCがんばれ

28 :デフォルトの名無しさん:2009/03/15(日) 08:29:09
>>26
日本のためだけにそんなオーバースペック提案しても通らない。というか通らなかった
わけで。
iconvだって文字列1つしかオプションに取れないのはほとんど欠陥といってもいいが、
ありとあらゆる柔軟な変換を可能にするためのオプション類の追加なんてできないので、
エンコーディング名に何でもかんでも詰め込む羽目に陥ってる(UTF-8-MACとか)。

29 :デフォルトの名無しさん:2009/03/15(日) 09:39:30
オーバースペックどころか、意図から外れてる。


30 :デフォルトの名無しさん:2009/03/19(木) 00:18:33
日本代表と全面戦争ktkr
http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3590.pdf

31 :デフォルトの名無しさん:2009/03/19(木) 19:20:06
ちょっとアホな質問かもしれんが、つまり、U+624D の AJ1E0100 と N3530E0103は同じと考えておk?
いいのか?


32 :デフォルトの名無しさん:2009/03/19(木) 22:22:25
USは同じでいいんじゃね? と主張しているだけで、最終的に判断して再提出するのは
(あるいはあくまで互換漢字を入れろと突っ張るのは)日本。

33 :デフォルトの名無しさん:2009/03/23(月) 18:46:12
ARIBといいケータイ絵文字といい昔の仮名といい
最近日本の文字のUnicodeへの提案多いね。
いい事だ。

34 :デフォルトの名無しさん:2009/03/23(月) 18:53:27
ぜひ写研時代の記号文字も提案を…

35 :デフォルトの名無しさん:2009/03/23(月) 19:23:39
変体仮名は住基仮名だけでも追加したほうがいいと思う。
戦前生まれの人の名前で戸籍上で使われてる事があってこだわる人がいるだろうから。
ところで名前に変体仮名を持つ人ってどれくらいいるのかな?
あまり見ないからごく小数なんだろうけど、実際に使われてても平仮名、片仮名あるいは元になったとされる漢字に置き換えたもので通してることが多いのかな?


36 :デフォルトの名無しさん:2009/03/29(日) 16:06:45
携帯絵文字の大半はBMP外になるみたいだね。
まあ仕方ないか。あれだけ数あるから。
U+2600〜U+26FFはARIBとサッカーボールで全部埋まってしまうみたいだし。
U+2700〜U+27FFには所々に隙間があって少しここに入れるものがあるみたいだがこの領域全部埋めようとはしないのかな?

37 :デフォルトの名無しさん:2009/03/29(日) 16:07:56
BMPに入るわけないだろw

38 :デフォルトの名無しさん:2009/03/29(日) 18:31:19
つーかそろそろBMPは終了のお知らせが近づいてる。
JIS X 0213:2000がかつて勝手に使ってたカッコ付きUCSの位置にもついに
割り当てが入るみたいだし。
IPv4アドレスとどっちが先に枯渇するかってくらいの勢いだ

39 :デフォルトの名無しさん:2009/03/30(月) 17:21:40
絵文字のどこらへんがBなんだ。

40 :デフォルトの名無しさん:2009/03/30(月) 22:01:21
Basicじゃなさそうな文字とか記号とかBMPにてんこもりなので
その批判はあんまり意味無いかも

41 :デフォルトの名無しさん:2009/03/31(火) 23:46:06
もうBMPは止めてCMP( Compatible Multilingual Plane )にでも
改名したほうがいいんじゃないかw

42 :デフォルトの名無しさん:2009/04/01(水) 20:09:14
http://smallbear.sakura.ne.jp/tron/btm20093.html#20090331
おいおい、そのレベルの違いを「おかしな字形」と定義するんだったら
TRONコードだって「おかしな字形」の塊なんだが。
ジャストシステムに言いがかり付けてる暇があったらTRONコードの字形
をどうにかしてくれ。ていうか超漢字Vのマイナーバージョンアップと
Tフォントマダー? (AAry
http://pc12.2ch.net/test/read.cgi/tech/1093251312/160
の件といい、どうしてこうも天に唾するようなことばかり書くのかね。
http://smallbear.sakura.ne.jp/tron/btm20093.html#20090326
> 結局の所、誰もマトモに「常用漢字表」を読んでいないということがあ
> りありと分かるだけ何じゃないかと。
常用漢字表の「明朝体活字のデザインについて」を無視してる奴が
どの口でほざくか。

43 :デフォルトの名無しさん:2009/04/04(土) 23:36:49
http://www.microsoft.com/typography/otspec/cmap.htm
Format 13: Last Resort Font
が追加された。ということはLast Resort Picturesはやっぱり
文字として符号化はしないんだな

44 :デフォルトの名無しさん:2009/04/10(金) 22:44:33
汗マークや怒りマークがようやくUnicodeで使えるようになるな。

45 :デフォルトの名無しさん:2009/04/11(土) 10:59:05
コードはあってもフォントとフォントへのマッピングが普及しているとは限らない罠
もういい加減、基本のフォントはタダで配れよ…

46 :デフォルトの名無しさん:2009/04/11(土) 18:55:01
これはGoogleが検索エンジンのデータベースへ蓄積するために提案したんだから
表示は最初から考慮の対象外
さんざん言われてるけどドコモ以外を正確に再現するには多色カラーや
アニメーションが欠かせないし

47 :デフォルトの名無しさん:2009/04/17(金) 13:17:46
>>35
官報にはたまに出てくるよ>変体仮名

話は全然違うけど、CJKV改訂版の内容レビューだれかやってくれないかな。
本家に行っても、章立てすら見あたらない。

48 :デフォルトの名無しさん:2009/04/18(土) 17:39:45
もうすぐ中旬終わるけど新ライセンスのIPAフォントマダー?
文字鏡16万字版の通常版マダー?
まったくどいつもこいつも出す出す詐欺ばかりだ。

49 :デフォルトの名無しさん:2009/04/19(日) 05:47:42
>>48
おい、乞食のくせに口を慎めよ。

50 :デフォルトの名無しさん:2009/04/19(日) 20:29:36
女真文字
http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3618.pdf
なんか漢字が混じってるような

51 :デフォルトの名無しさん:2009/04/19(日) 20:30:10
>>49
文字鏡16万字版はタダじゃねーぞ

52 :デフォルトの名無しさん:2009/04/20(月) 00:27:07
>>50
漢字と同じ字形の文字が少なからずあるからねぇ>女真文字

しかし何だ、こういう一覧表見るとwktkが止まらんな

53 :デフォルトの名無しさん:2009/04/23(木) 23:50:59
http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3607.pdf
U+E0200..U+E0545はUnicodeだとdefault ignorableだし
UCSでも(代替)書式文字のために予約されてる範囲なんだが
本当にそこでいいのか?

54 :デフォルトの名無しさん:2009/04/29(水) 11:13:09
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3636.pdf
N3583でもともと提案されてたEMOJI COMPATIBILITY SYMBOLと国旗の収録は
とりあえず断念したらしい。
その代わり/^o^\フッジサーンと東京タワーと自由の女神と日本地図とモヤイ像の
名前がEMOJI COMPATIBILITY SYMBOL-nに変わるようだが。

55 :デフォルトの名無しさん:2009/04/29(水) 12:19:38
>>54
なんでその中にモヤイ像が入ってんだ?w

56 :デフォルトの名無しさん:2009/04/29(水) 16:42:22
アメリカかなり妥協したなあ。
よっぽどAmd.8に入れたかったんだな。

57 :デフォルトの名無しさん:2009/04/29(水) 17:00:34
モヤイ像といえば渋谷名物だからなw

58 :デフォルトの名無しさん:2009/04/29(水) 17:27:35
109涙目w

59 :デフォルトの名無しさん:2009/04/30(木) 22:16:09
米がN3607に歩み寄ったってことは、もしかするとトランプも入ったのか

60 :デフォルトの名無しさん:2009/05/04(月) 17:43:21
トランプは全て入ったけど
i-mode隠し文字(EMOJI COMPATIBILITY SYMBOL)は誰が考えたってダメだろ

61 :デフォルトの名無しさん:2009/05/04(月) 19:02:28
TRONコードですらi-mode隠し文字の位置は空欄になってるぞ。
最初空欄を空けるのを忘れてて後から訂正が入ったりしたのはご愛敬
http://www2.tron.org/set08.html

62 :デフォルトの名無しさん:2009/05/04(月) 23:53:57
麻雀ドミノに続いてトランプか。
これなら花札も行けるかもな。

63 :デフォルトの名無しさん:2009/05/05(火) 05:31:05
トランプのところにはタロットの小アルカナも包摂するみたいなことが書いてあるから
そのうち大アルカナも提案されるのかね
いい加減節操がない気もするが

64 :デフォルトの名無しさん:2009/05/05(火) 12:33:16
ショウギーはまだぁ?

65 :デフォルトの名無しさん:2009/05/05(火) 12:52:43
ショウギーの駒は先手と後手の両方が必要だ

66 :デフォルトの名無しさん:2009/05/05(火) 22:15:29
WHITE SHOGI PIECEは上下逆さにしたものを包摂してるらしい

67 :デフォルトの名無しさん:2009/05/05(火) 23:15:26
MacOSでのShift_JISとUnicodeとのマッピング
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT
見てたんだけど、
Unicodeの私用領域にマッピングしてる文字や、
2文字以上にマッピングされる文字が約60文字もあるのね…。

Shift_JIS Unicode
0x8645  0xFF4D+0xF87F # square m
0x8791  0x5927+0x20DD # ideograph big + COMBINING ENCLOSING CIRCLE

みたいなの。
Webアプリ作ってるんだが、胃が痛い…。

68 :デフォルトの名無しさん:2009/05/05(火) 23:19:09
>>64
碁も必要ではないだろうか。

69 :デフォルトの名無しさん:2009/05/05(火) 23:34:26
碁は符号化するとしたらどんな感じになるんだろ。
○●の背後に┼があれば良いのかな。

70 :デフォルトの名無しさん:2009/05/05(火) 23:54:23
白丸の中に数字、と、黒丸の中に白抜き数字、で、十分な数
(とりあえず999まででおk?)が必要じゃないかな。

あと、デザインを合わせて丸の内側に三角とか四角とかも。

そもそも、碁の棋譜を文字で表現すべきものなのか、激しく疑問だが。

71 :デフォルトの名無しさん:2009/05/06(水) 01:53:51
楽譜や数式と同様にIgo Markup Languageと組み合わせて使うこと前提で登録なら
ありうるかも

72 :デフォルトの名無しさん:2009/05/06(水) 10:42:43
雀牌もやるきかw

73 :デフォルトの名無しさん:2009/05/06(水) 14:13:59
麻雀牌は収録済み

74 :デフォルトの名無しさん:2009/05/06(水) 14:55:24
あとはシャンチーとか?
シャンチーって↓これね
http://ja.wikipedia.org/wiki/%E3%82%B7%E3%83%A3%E3%83%B3%E3%83%81%E3%83%BC

75 :デフォルトの名無しさん:2009/05/06(水) 16:28:16
モンゴル将棋も忘れずに!
ttp://history.chess.free.fr/hiashatar.htm


76 :デフォルトの名無しさん:2009/05/06(水) 17:29:20
チェスと将棋に包摂されたりして
麻雀牌も中国麻将を区別してないみたいだし

77 :デフォルトの名無しさん:2009/05/07(木) 20:50:11
>>67
何を作っているかしらんけど、もしcharset=Shift_JISならそもそもそういう
文字は使うべきではないのでは。

ってゆうかそもそもそれをShift_JISと呼んでいる時点でアレだが。

78 :デフォルトの名無しさん:2009/05/08(金) 01:28:09
MacEncodingをInternetで使っちゃダメだよ
Mozillaが対応してるのもほとんど事故のようなものだし

79 :デフォルトの名無しさん:2009/05/08(金) 01:48:50
これってUTF-8のときも、MacOSでこの文字入力したら
私用領域の文字送ってくるってことでしょ。
対応しないならしないで、もしユーザーが使ったら
エラーメッセージ出さないと…。

80 :デフォルトの名無しさん:2009/05/08(金) 02:41:55
対応も何もOSに依らず私用領域の文字を使うか否かはユーザの責任でしょ。
私用領域の文字でなくてもNSString/CFString (UTF-16)からShift_JISにする段階で変換できない文字は存在しうるし。

自分のソフトウェアでShift_JISな文字列からNSStringを作る場合は
[NSString stringWithCString: string encoding: NSShiftJISStringEncoding]
の代わりに、
(NSString *)CFStringCreateWithCString(NULL, string, kCFStringEncodingDOSJapanese)
とか、kCFStringEncodingShiftJIS_X0213を使うという手もあるよ。

81 :デフォルトの名無しさん:2009/05/08(金) 13:20:15
ユーザーが私用領域とか知った上で入力するとは思えないなぁ…。
あなたのソフトウェアのユーザーと、私が対象としてるユーザーは
違うようなのでもう消えます。さよなら。

82 :デフォルトの名無しさん:2009/05/08(金) 13:47:11
>>81
Webアプリ作っているお前の責任なんだが?
お前がUnicodeフレームワークの「利用者」

83 :デフォルトの名無しさん:2009/05/08(金) 14:03:41
>>82がよくわからない。

>>81は、「Webアプリ作っているオマエの責任」として私用領域ははじこうとしている。
>>82の言っているそのままなんだが…。

84 :デフォルトの名無しさん:2009/05/08(金) 14:06:13
>>81は、「対応する」=「そのままうけつける」、「対応しない」=「エラーとしてはじく」としているが、
>>82はどちらも「対応には変わりない」と言ってるんだろ。

85 :デフォルトの名無しさん:2009/05/08(金) 14:31:49
麻雀って赤牌は別コードになるのか?

86 :デフォルトの名無しさん:2009/05/08(金) 20:50:47
将棋の駒の上下逆さにしたの追加されるみたい。(ARIBにあるから)
ということは>>66で包摂しているって書いてあるが、これからは分離されるってことかな。

87 :デフォルトの名無しさん:2009/05/08(金) 23:37:10
CJK統合漢字拡張Dは数がかなり少なくなるみたい。(200字強)
でそれより後に拡張Eが追加されるみたい。これも少量になって残りは拡張F、G、…になるかも。
やっぱり拡張Bのときいっぱい追加して重複とかあったから、
反省してこれからは慎重に少しずつ追加していくことにしたのかな?


88 :デフォルトの名無しさん:2009/05/09(土) 01:27:23
漢字といえばN3530はどうなったんだろ
Resolutionsには言及されていないからMinutes待ちか

89 :デフォルトの名無しさん:2009/05/09(土) 12:30:36
>>85
Unicodeは色を符号化しません。
cf. 絵文字

90 :デフォルトの名無しさん:2009/05/09(土) 13:07:22
で、「じゃあフランス国旗とイタリア国旗はどうなんだよ」と突っ込まれたのが
国旗収録断念の理由の一つ

91 :デフォルトの名無しさん:2009/05/10(日) 12:53:41
>>90
包摂しちゃえばいいのに

92 :デフォルトの名無しさん:2009/05/10(日) 13:01:02
>>91
それじゃラウンドトリップコンバージョンが崩れるからダメなんだと
理由は他にもあるし

93 :デフォルトの名無しさん:2009/05/10(日) 22:45:12
ハートマークの色違いとかHEART-1、HEART-2、…とか名称は-数字を付けるらしいな。
以前の案では縞模様とか網掛けに置き換えるとかしてたみたい。

94 :デフォルトの名無しさん:2009/05/10(日) 23:26:56
なんかUnicode追加文字の符号位置だいぶ変更するみたいだね。ヤ行のえと□デはSMPの方に変更するらしい。
ヤ行のえは現代の仮名と古代の仮名は一緒にしない方がいい、
□デについてはU+32FFは○ンかもっと重要な文字が必要になったときのためにとっておいた方がよいということなどの理由らしい。
U+26xxに追加が提案されてたARIBの記号の一部はU+27xxやU+2Bxxに変更するみたい。
U+26xxのブロックはまだ埋まらないことになる。で携帯絵文字の内、蛇遣い座の記号はBMP内のU+26CEに提案されてた。
今後も変更があるかも知れない。最終的な決定はもう少し先になりそうだ。
個人的には怒りマークと汗マークをBMPにするべきだと思う。漫画とかTVの字幕でよく使われるし。

95 :デフォルトの名無しさん:2009/05/10(日) 23:57:06
ARIB関連はもう動かせないよ。Amd6はFDAMに移行するから。
残りは明日からのUTCの会議次第でまだ紆余曲折あるかも。

96 :デフォルトの名無しさん:2009/05/11(月) 03:39:36
結合文字はIME文字一覧からでしか入力出来ませんか?

97 :デフォルトの名無しさん:2009/05/11(月) 11:53:28
> 個人的には怒りマークと汗マークをBMPにするべきだと思う。漫画とかTVの字幕でよく使われるし。

一昔前によく使われた、写研の記号BA-90はどうすんだ、とか
収拾がつかなくなる気がする。じだいとともにうつりかわってるし。

98 :デフォルトの名無しさん:2009/05/11(月) 15:08:10
少なくともBA-90やBA-88はかつて漫画を中心に大量に使われたので
どこか提案して収録はして欲しいがSMPで良い。

99 :デフォルトの名無しさん:2009/05/11(月) 17:39:41
絵文字のとこに入ってる顔のついた月が
それっていう解釈でもいいかもね


100 :デフォルトの名無しさん:2009/05/11(月) 20:29:22
イワタアンチック体が収録しているんだが、これは外字だな
http://www.iwatafont.co.jp/MO_FONTS/set_image_pdf/antique/anti_b.pdf

このあたりの写植時代の記号類、Unicodeに入れてほしいね

101 :デフォルトの名無しさん:2009/05/12(火) 00:45:27
BA-88はFIRST QUARTER MOON WITH FACE、BA-90はFULL MOON WITH FACEと包摂か。
ところでBA-90って満月なの?

102 :デフォルトの名無しさん:2009/05/12(火) 04:50:52
BA-86からBA-89まで月が続いてるからBA-90は満月だと思い込んでたが、
そういわれりゃ太陽って可能性もあるわけか。

103 :デフォルトの名無しさん:2009/05/12(火) 11:13:50
ぽげむたマークか、懐かしいな(ひげ無いけど)

104 :デフォルトの名無しさん:2009/05/13(水) 23:20:09
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3553.pdf#page=15
> Some X0213 characters are mapped to
> compatibility ideographs. The problem stated in the paper is not reported in Japan
> ? my personal experience is that the problem stated in the paper has not occurred.
おいおいこんなのが日本代表やってんのかよ。小形の連載とか直井さんのblogあたり
を10646回読み直せ。それでもまだこんな寝言ほざくつもりならとっとと帰国して二度と
米国代表の邪魔をするな。

105 :デフォルトの名無しさん:2009/05/13(水) 23:49:14
wg2のminutesは面白いよな
utcのminutesも各自の発言まで載ってるといいのに

106 :デフォルトの名無しさん:2009/05/14(木) 08:08:09
> not reported
で、そのreportとやらはどこに送ればいいの?
太玄経記号の名前の天地人がおかしいとか、JIS X 0213用のNamed Sequencesが
足りねーよとかも、どこに言ったらいいかさっぱりわからないから2chとかで騒いでるん
だけど。
Unicodeは窓口を明確にしてるし、どっかの国のガス抜きのためだけにある
パブリックコメントと違ってちゃんと反映もしてくれるし必要ならWG2への提案まで
してくれるのに。日本人が日本代表動かすより米国代表やUTC動かすほうが
簡単ってどうなの?

107 :デフォルトの名無しさん:2009/05/15(金) 11:37:21
http://www.itscj.ipsj.or.jp/sc2/open/02n4015.pdf
とかに彼のものっぽいメールアドレスがあるから、
直接報告してあげればいいんじゃないの。

108 :デフォルトの名無しさん:2009/05/16(土) 03:33:02
>106
ロクな下調べもしないで騒ぐのならば、2chで始めた方が相手にも迷惑かからないかもね。
太玄経記号の天地人とかは amd 2 で直されて、annex p に注記が
入っている。0213のUSIとかもamd.7に入ってるけど、それでも足りないのがある?

109 :デフォルトの名無しさん:2009/05/17(日) 21:14:41
>>104
Suignardの言ってることも変。
IVSもnormalizationかけたら、現状じゃ落ちちゃうだろ。
将来は大丈夫って、そんなのウソ。

110 :デフォルトの名無しさん:2009/05/18(月) 02:05:03
>>109
IVSはnormalizationかけても落ちないよ。
ただ、SPP(14面)の文字は、文字列の等価性の比較のときは無視するべき。
照合アルゴリズムで、それをちゃんとやってるソフトも規定も現状では
整備されてないから、絵にかいた餅だってこと。

111 :デフォルトの名無しさん:2009/05/18(月) 02:07:48
SPP -> SSP

112 :デフォルトの名無しさん:2009/05/21(木) 23:34:35
PDAM8はsymbolばっかりだなあ、
と思ったら名前からしてAdditional symbolsが先頭に来ているのか。

113 :デフォルトの名無しさん:2009/05/30(土) 15:29:44
10646の新版もようやくCDですか

114 :デフォルトの名無しさん:2009/05/31(日) 03:48:29
ExtBマルチカラム化実現したのか

115 :デフォルトの名無しさん:2009/06/01(月) 03:39:53
ちゃっかりAmd.8まで入れてあるような。

116 :デフォルトの名無しさん:2009/06/06(土) 23:00:50
小形さんうまいこと引っ張るなぁ。

117 :デフォルトの名無しさん:2009/06/06(土) 23:24:51
北朝鮮(KP)のフォントが用意できてないみたいだけど、
規格票用のフォントを作る余裕なんてあの国にあるんだろうか。
なんかこっちが心配してしまうw

118 :デフォルトの名無しさん:2009/06/07(日) 12:27:50
北朝鮮にはウンチの絵文字をあげるよ

119 :デフォルトの名無しさん:2009/06/10(水) 09:07:45
絵文字ad hocは決定事項の報告が主だから、あれを元に
Peterが中立だったというには無理があるんじゃないかなあ。

Oさんが独自のソース持っているのなら話は別だけど。

120 :デフォルトの名無しさん:2009/06/28(日) 01:18:10
いつの間にか「祷」(第3水準の正字でなく第1水準の略字の方)と「穹」が人名用漢字に追加されてた。

121 :デフォルトの名無しさん:2009/06/28(日) 03:56:38
蒼穹のうんたら

122 :デフォルトの名無しさん:2009/07/02(木) 21:15:54
ここら辺の記号類もunicodeに入れてほしいなぁ。
手話シンボル http://www001.upp.so-net.ne.jp/wakan/Others/HandSignFont.html
ケアーマーク/リサイクルマーク http://gaiji.info/pictgram/6-pictogramfontdownload/11-caremarkfont.html
地図記号 http://gaiji.info/pictgram/6-pictogramfontdownload/13-2008-11-25-06-10-47.html
一般案内用図記号 http://gaiji.info/pictgram/6-pictogramfontdownload/12-2008-11-25-06-03-04.html
校正記号 http://www.erc-books.com/ERC/How/H2-List.html
交通標識 http://www.menkyo.ne.jp/menu/kiso/hyoshiki.html
電気記号 http://www.ne.jp/asahi/ja/asd/gijutu/zukigou/zukigou.htm

123 :デフォルトの名無しさん:2009/07/02(木) 21:43:02
あと難しいかもしれないけどWebdings、Apple Symbolsあたりをunicodeに入れてほしいなぁ。

124 :デフォルトの名無しさん:2009/07/02(木) 21:49:08
うるせえだまれ

125 :デフォルトの名無しさん:2009/07/02(木) 21:54:19
すんません

126 :デフォルトの名無しさん:2009/07/02(木) 23:24:51
>>123
Apple Symbolsって殆どUnicodeでそれ以外はAppleの私的な記号やん

127 :デフォルトの名無しさん:2009/07/02(木) 23:31:29
標識類や回路図用の記号なんかは難しいらしい。

ttp://std.dkuug.dk/JTC1/SC2/WG2/docs/principles.html
の34ページ目以降に解説があるから興味があったらどぞ。

128 :デフォルトの名無しさん:2009/07/03(金) 10:21:49
改正されたJISマークはどうなるんだろう。
というか、旧JISマーク(〄)は何をソースに入ったんだ?

129 :デフォルトの名無しさん:2009/07/03(金) 13:38:16
まさかデザイン変更するとは予想してなかったんじゃね? それよりも、かつてのJIS X 0213のドラフト案には

ベンゼン環

があったんだよ。そんなもの一体何に使うんだっていうの。

130 :デフォルトの名無しさん:2009/07/03(金) 13:45:13
よくわからんが、化学式に使うんじゃねーの

131 :デフォルトの名無しさん:2009/07/03(金) 14:52:12
有機化学系の書籍では普通に本文中に埋め込まれてる。


132 :デフォルトの名無しさん:2009/07/03(金) 15:12:23
ベンゼン環はUnicodeには入ってるな。

133 :デフォルトの名無しさん:2009/07/04(土) 02:50:17
ベンゼン環だけあったって何の役にも立たんのにといつも思う。

134 :デフォルトの名無しさん:2009/07/05(日) 21:13:11
>>128
Adobe-Japan1-1じゃね?
新JISマーク取り込んだAdobe-Japan1-7まだー?

135 :ぎじつしゃ1:2009/07/05(日) 21:37:27
中途半端なぎじつしゃです。

各種プログラミング言語には文字列の判定処理でcharlenというものが用意されていますが
同じプログラミング言語でもHP-UXなどのUNIXとWindowsなどプラットフォームにより
返り値が違う文字コードがあるとききました。
具体的には 0x8240〜0x824e などの機種依存エリアの判定です。

HP-UXでは 返り値=1  WIndowsでは 2 となるようです。

どこか技術文書などがあれば紹介いただきたいのですが・・

136 :デフォルトの名無しさん:2009/07/05(日) 23:54:56
>>134
AJ1-7 は Unicode 5.2 の制定後になるのかな?
新JISマークが入るかどうかは知らんが

137 :デフォルトの名無しさん:2009/07/06(月) 01:15:45
Unicodeとは連動していない気がする。1-6が出てからもう5年近く経つし。
どういうタイミングで更新しているんだろな。

138 :デフォルトの名無しさん:2009/07/06(月) 09:43:01
>>135 マニュアル嫁

139 :デフォルトの名無しさん:2009/07/11(土) 23:38:41
Adobe-Japan1の非漢字にはUnicodeに入ってないのいっぱいあるよな。
JASマークとか一部の組文字とか。
これらはUnicodeに入れないのかな?
漢字は大半がIVSで表せるし表せないもの(撥の拡張新字体など)は拡張CやDで追加されるみたいだけど。




140 :デフォルトの名無しさん:2009/07/12(日) 01:16:00
JASマークは別に文章中で文字として使わないしなぁ・・・
まあそんなこと言い始めたらキリがないけど
というか、既に収録されているカタカナの組文字ってどういう基準で採用したんだろう?
http://www.unicode.org/charts/PDF/U3300.pdf

141 :デフォルトの名無しさん:2009/07/20(月) 06:49:29
そういえば、BETA Unicode 5.2.0でてるね、みんな読んだ?
http://www.unicode.org/versions/beta.html

142 :デフォルトの名無しさん:2009/07/21(火) 18:16:11
別スレにも書き込んでここで3度目なので、しつこいようですがよろしくお願いします


文の格納に必要なバイト数をJISコードの場合とシフトJISコードの場合のそれぞれで計算する問題なのですが、これはどうやって考えれば良いのですか?

漢字、カタカナ、英数字(半角)、記号で構成されている文です

曖昧な質問で申し訳ないのですが、ここでは課題の文を晒せないので、よろしくお願いします><

143 :デフォルトの名無しさん:2009/07/21(火) 18:27:53
>>142
あんた馬鹿?

144 :デフォルトの名無しさん:2009/07/21(火) 18:58:45
ttp://charset.7jp.net/jis.html
ttp://charset.7jp.net/sjis.html

145 :デフォルトの名無しさん:2009/07/21(火) 21:00:52
いまどき「JISコード」と教えてるとは感心できない学校もあるもんだ

146 :デフォルトの名無しさん:2009/07/21(火) 22:32:47
問題のための問題だろう。
おそらくJISの決まり事とか問題文と一緒に書かれている。
スレ違いだな。

147 :デフォルトの名無しさん:2009/07/22(水) 00:47:27
みんな冷たいな。

>>142
文の格納に必要なバイト数をJISコードの場合とシフトJISコードの場合のそれぞれで計算すればいいと思うよ。

148 :デフォルトの名無しさん:2009/07/22(水) 02:52:14
>>147
ご親切にありがとうございます

計算とは、実際どのようにすれば良いのですか?
例文を挙げて説明して頂けると有難いです


こんなこと聞いてホントに申し訳ないです;;
実は大学の選択科目の課題なのですが、基礎知識ゼロで飛び込んでしまったので、問題文の意味すら分からず困り果てている状態です><

149 :デフォルトの名無しさん:2009/07/22(水) 05:34:37
><

150 :デフォルトの名無しさん:2009/07/22(水) 05:39:31
今回の皆既/金環日食はトカラ列島中心だけど
2012年5月にはほぼ日本全国で金環日食が見られるんです

151 :デフォルトの名無しさん:2009/07/22(水) 08:30:50
>>148
友達を作るチャンスだろ
こんなとこ書き込んでないで周りと話せ

152 :デフォルトの名無しさん:2009/07/22(水) 17:28:05
「JISコードの場合」ってのがわからん。
ISO-2022-JPのこと?

153 :デフォルトの名無しさん:2009/07/22(水) 18:10:25
違うんじゃないかな

154 :デフォルトの名無しさん:2009/07/22(水) 18:12:46
>>148
足し算だけでいけると思うよ
文を作って左から数えるだけ

155 :デフォルトの名無しさん:2009/07/22(水) 20:20:57
You! ダブっちゃいなよ!

156 :デフォルトの名無しさん:2009/07/25(土) 04:30:38
>>141

どうやらようやくヒエログリフが(><)ノ

これでやっと画像ファイルなくせる

157 :デフォルトの名無しさん:2009/07/26(日) 01:51:16
Amd.5と6の分か。
日本関連だと拡張漢字CとARIBかな。

158 :デフォルトの名無しさん:2009/07/26(日) 04:36:39
>>157
Amd.6も収録されるのか。
win7のTVゴシックはPUAにARIB外字が入ってるけど、どうなるんだろ。
AJ1-7あたりにも入るんかな>ARIB

159 :デフォルトの名無しさん:2009/07/26(日) 14:54:23
最終的にはAmd.6で決まった符号位置に移動させるんだろうけど、
Unicode5.2とWin7のリリースがほぼ同時期なだけに、
タイミングが難しそう。

160 :デフォルトの名無しさん:2009/07/27(月) 10:24:39
凄い初歩的な質問です。文字コードというよりエンディアンの質問になってしまいますが・・・
UNICODEのLEは
例えば、
23 43 23 12 34 35
と文字列が並んでいて、これをBEに変換するには
35 34 12 23 43 23となるのでしょうか?
それとも、それぞれ2バイトで文字列が切れるとして
34 35 23 12 23 43
ということなのでしょうか?
前者だとすると、最後までデータを読まないと、頭の文字がわからないという事ですよね?
でも、そういうわけでもなさそうですし。
後者だと、自分が学生の頃学んだ記憶によれば、LEとは言わずに、ミドルエンディアンと習った覚えがあります。
どちらなのでしょうか?

161 :デフォルトの名無しさん:2009/07/27(月) 11:03:07
UNICODE って何?
UTF-16 とか、きちんと用語が使えるようになってからまた質問してね。

162 :デフォルトの名無しさん:2009/07/27(月) 13:37:19
文字列はビッグエンディアン

163 :デフォルトの名無しさん:2009/07/27(月) 13:39:57
ビッグトンチンカン

164 :デフォルトの名無しさん:2009/07/27(月) 13:47:44
>>160
文字をBEで表現するかLEで表現するかの違いこそあれ、
文字が逆順に表現されるようなエンコーディングは存在しない。

165 :デフォルトの名無しさん:2009/08/04(火) 21:24:11
>>148
質問の意図が分からないので、推測するけど、 JIS == JIS X 0208でよいのかな?
マジスレすると、一言に漢字と言っても、JIS X 0208では6,355文字しか定義されていないので、
格納する文字列の中の漢字で、JISX0208に含まれない漢字(例:JISX0212等)
がある場合は切り替え命令が必要なので、その分必要なバイト数は増える。
半角カナ使用の場合も同様に切り替え命令の分必要なバイト数が増える。
例)"あ" == "<1b 24 42> 24 22 <1b 28 42>"
例)”aあああa”="61 <1b 24 42> 24 22 24 22 24 22 <1b 28 42> 61 0a"
例)"aあaあa"="61 <1b 24 42> 24 22 <1b 28 42> 61 <1b 24 42> 24 22 <1b 28 42> 61"
英数と言うのは、ASCIIと仮定して、記号もASCII規格のやつと仮定して、
基本的に英数と半角カナは1バイト、ひらがな、漢字は2バイト、その他は3バイトで計算(かなり大雑把だけど)
違う文字集合ごとに切り替える必要があり、その度に三バイト必要になる。
ただ、例外的に格納する文字列の始めがASCIIの場合、<1b 28 42>は必要なく、
新たに[現在の文字集合とは]別の文字集合にぶつかる度に三バイト必要になる。
また、文字列の最後の文字が属する文字集合がASCII以外である場合、<1b 28 42>を追加して
きちんと基本のASCII文字集合に切り替えて末端処理を行わないといけない。
当然、二つの文字列をつなぎ合わせる場合は、もし末端処理が不要(一つ目の文字列の最後の文字と、
2つ目の文字列の最初の文字が同じ文字集合に属し、かつASCII文字集合では無い)な場合、
末端処理として入れられた一つ目の文字列の最後の<1b 28 42>と二つ目の文字列の
最初の切り替え命令3バイトを取り除く必要がある。

粗悪なプログラムの場合、この辺の末端処理とか使われていないとか、切り替え命令の除去がされていないので、
注意する必要がある。
厳密には「文字集合」の意味は違うけど、多分質問者の教材ではそこまで深く掘り下げないと思うので


166 :デフォルトの名無しさん:2009/08/04(火) 21:25:41
あと、追加(文字数大杉)。
各国(192ぐらい?)毎の使用符号化方式と言語一覧表探してるんだけどだれか持ってない?
とりあえず地味に20ヶ国ぐらいググってるんだが、マイナーな国の情報とか乗ってない…orz
例) 日本=日本語、euc-jp,shift-jis,iso-2022-jp;みたいに。
アフガニスタンとか、Extended Arabic Lettersの前に元々使っていたコードページとか
ある筈なんだけど、だれかエロい人おしえて?


167 :デフォルトの名無しさん:2009/08/05(水) 01:00:06
ここからたどれない?

ttp://www-01.ibm.com/software/globalization/expertise/index.jsp

168 :デフォルトの名無しさん:2009/08/08(土) 06:54:27
MicrosoftだとCode Page Identifiersとか。
http://msdn.microsoft.com/en-us/library/dd317756(VS.85).aspx
ただ、実際にそこの国の人々がもっぱらどんな体系を使っているかは、
こういうのだとわかんないんだよね。
台湾のUAOとか最近まで知らなかったよ。

169 :デフォルトの名無しさん:2009/08/08(土) 17:07:22
Historic Kanaって名称は邦訳が難しそう
Kana Supplementの方が汎用性もあるし好都合なんじゃないか

170 :デフォルトの名無しさん:2009/08/09(日) 00:04:05
ほんとだよな。
それだったら「イ」と「エ」が合体したものや小書き「ヰ」「ヱ」「ヲ」や琉球語表記用の「て」と「ぃ」が合体したものなどの拡張仮名も入れることができるのに。


171 :最近までShift_JISとMS932を混同してた:2009/08/12(水) 11:42:19
>>169
> Historic Kanaって名称は邦訳が難しそう
ん?「旧かな字」とかでいいんじゃない?とか素朴に思ってしまったんだけど……


あ、パンドラの続編が来たね。最終回は次回、らしい。
「絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係」
http://japan.cnet.com/column/pers/media/story/0,2000058034,20398174,00.htm

172 :デフォルトの名無しさん:2009/08/13(木) 21:29:19
今回は今ひとつだったなあ。
あんまりダブリン会議のこと引っ張ってると情勢変わるかもよ。
2〜4月と8〜10月は一番動きがある時期なんだから。

173 :デフォルトの名無しさん:2009/08/14(金) 04:13:09
絵文字なんてエスケープシーケンスとかmixiみたく特定の文字列で対応すればいいだろうが。
こんなの認め始めたらキリがないって。

174 :デフォルトの名無しさん:2009/08/14(金) 05:46:47
遅かれ早かれWEBにもあふれ出してきて、豆腐だらけになるんだろうな。

175 :デフォルトの名無しさん:2009/08/14(金) 15:25:35
iPhoneでSMSを使ったときのセキュリティー問題で話題になった豆腐も、きっとなにかの絵文字だったんだろうな。

176 :デフォルトの名無しさん:2009/08/15(土) 17:36:39
>>173
エンコーディングとキャラクタセットを混同している。

177 :173:2009/08/15(土) 20:28:41
>>176
俺は絵文字をキャラクタセットに組み込んで欲しくないから、そうしろと言ってるんだけど。

画像を別に準備(gifでもjpgでも何でもいい)しておいて、表示時に画像を埋め込むようにすれば十分。

178 :デフォルトの名無しさん:2009/08/15(土) 20:55:50
> 俺は絵文字をキャラクタセットに組み込んで欲しくないから


179 :デフォルトの名無しさん:2009/08/15(土) 20:58:41
ごめん途中で送信しちゃった

> 俺は絵文字をキャラクタセットに組み込んで欲しくないから
その前提を最初に主張しないと後ろの意見だけ言っても伝わらないって。

180 :デフォルトの名無しさん:2009/08/17(月) 10:05:42
笑える
http://japan.cnet.com/image/l/story_media/20398174/fig_5-8.jpg

181 :デフォルトの名無しさん:2009/08/17(月) 10:55:52
アイルランド・ドイツ提案のやつ見てたらアイマスフォントを思い出した

182 :デフォルトの名無しさん:2009/08/17(月) 11:08:03
>>180
これ直接行けないんだな。
http://japan.cnet.com/column/pers/media/story/0,2000058034,20398174-4,00.htm
の図8。

183 :デフォルトの名無しさん:2009/08/17(月) 11:09:46
え?
直接行けたけどな。専ブラだから?

184 :デフォルトの名無しさん:2009/08/17(月) 11:10:15
・アニメ風牛の顔
・牛の影絵
が包摂されるわけですね。

僕の書いたべか子ちゃんの顔アイコンも包摂されてしまうとしたら哀しいです


185 :デフォルトの名無しさん:2009/08/17(月) 22:15:23
クジラの影絵を見てクジラって言い当てられたらすごい

186 :デフォルトの名無しさん:2009/08/17(月) 23:10:35
動物の顔のマークを動物の全体像で置き換えちゃ
記号の意味が変わるというつっこみを受けて
結局分離することになりました…ってあたりを次にやって連載完結かな。

187 :デフォルトの名無しさん:2009/08/19(水) 00:31:09
Old Hungarianはpunctuationすら一本化できないのか
本当もめるなあ

188 :名無しさん@そうだ選挙に行こう:2009/08/30(日) 04:17:00
WG2 Meeting 55 って東京開催だけど、あれって一般人でも傍聴可?

189 :デフォルトの名無しさん:2009/09/12(土) 01:45:38
JIPSEとJIPSJの違いを知りたい。

190 :デフォルトの名無しさん:2009/09/12(土) 02:00:46
NECって昔から糞な会社の代表で、ここのせいで日本のITが立ち遅れたのは間違いない。
JALとともに、さっさとつぶれてほしい筆頭の会社だがね。


191 :デフォルトの名無しさん:2009/09/12(土) 12:55:17
なんだおめーEかHかFかSの回しもんか

192 :デフォルトの名無しさん:2009/09/12(土) 15:03:51
NECのお陰で日本のHentai文化が育った。
PC88のおかげで日本は世界一のFM音源大国になった。
PC98のおかげで日本のFDDの出荷率は2倍になった。

193 :デフォルトの名無しさん:2009/09/12(土) 16:25:10
NECのおかげでJIS78がえんえん生き残った、ぐらいだよなぁ。
このスレの話題的に恨まれることと言えば。
それも、変えたほうが悪い、と言われるような規格だし。

FM音源の普及にはセガのおかげも大きいし、FDDについては単に98が
最大のシェアを持ってたからってだけで、特筆するようなものでもないと思う。

194 :デフォルトの名無しさん:2009/09/12(土) 16:47:55
いや、PC98のFDDの出荷率2倍は皮肉でしょw
当時のPC98はメモリが少なく、HDDも一般的で無かった事から
何をするにも、FDDが2つ搭載されてないと困った。
なので2台搭載されてるのがデフォだったんだよ。


高性能なIBM PCやX68kを見て
「FDD1つしか搭載されてないじゃんw」ってPC98ユーザーが馬鹿にするジョークがあった。
これは、2つ搭載しないと性能的に駄目なPCって意味なんだけどね。

195 :デフォルトの名無しさん:2009/09/12(土) 17:22:10
>194
> 高性能なIBM PCやX68kを見て
ここ笑うところですか?

196 :デフォルトの名無しさん:2009/09/12(土) 19:13:04
Cドライブから始まるのは正直ダサいw

197 :デフォルトの名無しさん:2009/09/12(土) 19:21:53
仮想FDドライブ懐かしい

198 :デフォルトの名無しさん:2009/09/12(土) 19:28:10
X68kはFDD二台あったよ

199 :デフォルトの名無しさん:2009/09/12(土) 19:29:27
当時の5インチFDの中身が読みたいんだが
USBのFDDとかで5インチって無いのか?

200 :デフォルトの名無しさん:2009/09/12(土) 19:29:54
日本が海外の進行を食い止めたのは
漢字ROMをはじめとするハードウェアの日本語化の障壁があったからだと思う。
メモリが贅沢に積まれはじめて、ソフトウェアで実現出来るようになっても、
漢字Talkや超漢字みたいに、漢字対応を全面に出したOSが出るくらいだから、
やっぱり海外は日本語のフォント作りに苦心したんだろう。

なので、日本のITが遅れた主な元凶は、日本語にあると思う。
これが英語圏だったらそんな事はなかった。

逆に、漢字文化を持ってるからこそ、勝たなければ行けなかった分野で最近負けてるのが気がかり。
検索エンジンなんて、絶対に日本が勝たなければいけなかった分野なのに・・・。
はじめから分かち書きされてる英語圏に、先に様々な問題意識を持たれ、字句解析の技術も先行され・・・
本当に馬鹿な事をしてると思うよ。まぁ、日本は人工知能に偏った思い入れがあるから、いつまでたっても認知科学の分野から頭が離れなかったのも主原因にあると思う。
何十年焼き回し研究をやってるんだと言いたい。

201 :デフォルトの名無しさん:2009/09/12(土) 20:16:23
研究費で食ってる香具師らにろくなのはおらんよ
理研ですら利権まみれだったからな

202 :デフォルトの名無しさん:2009/09/13(日) 00:32:27
IBM 5550 には FDD 3台ついてたよ。


203 :デフォルトの名無しさん:2009/09/13(日) 04:00:16
>>200
「日本語情報処理」を外人が書いちゃうような、そんな後進国だもの<日本

204 :デフォルトの名無しさん:2009/09/13(日) 04:45:50
NEC内部コードEとNEC内部コードJとかいう変態のコードとUTFの変換テーブルはどこかにありませんか?

205 :204:2009/09/13(日) 04:50:01
質問が間違えた。
NEC漢字コード体系という変態から逃れたいんですがどうしたら良いでしょうか。
ヘンテコ汎用機で困るんです。


206 :デフォルトの名無しさん:2009/09/13(日) 05:33:57
     固定機能を排除するにしても、固定機能の代替となるようもう一段ミドルウェアをかまさないとつらいからな

207 :デフォルトの名無しさん:2009/09/13(日) 08:46:51
>>203
電子情報通信学会編「日本語情報処理」ってのもあるんだけどな。
日本人のやることは、日本人ってバカにするのが好きだからさw

208 :デフォルトの名無しさん:2009/09/13(日) 11:04:31
>>207
それ内容はどうなの?入手方法は?

209 :デフォルトの名無しさん:2009/09/13(日) 14:03:49
自然言語処理が日本で人気が出始めたのも、Googleが成功してからだもんな・・・。
NAISTの茶筅やMeCabやNamazuの開発者たちは、とっくにGoogleに持ってかれてるし。
気づくのおせえよ。

210 :デフォルトの名無しさん:2009/09/13(日) 16:42:16
>>185
一瞬、秋刀魚かとおもたw


211 :204:2009/09/15(火) 00:45:06
日本ってコンピュータ言語とか互換性を重視しているわりに、
携帯絵文字コードにみられる非互換で競争してしまう行動はどこからきてるんだろうか。
単に差別化するのが簡単とかそういう理由なんだろうか。

212 :デフォルトの名無しさん:2009/09/15(火) 08:55:19
ポケベルの頃に絵文字がたくさん使える機種が売れたんです。
ドコモの若手チームの功績とする読み物がウェブにもありますよ。

213 :デフォルトの名無しさん:2009/09/15(火) 09:28:20
プログラミング言語でも、いざ実装となると規格の踏み外しが多かったりとか、
日本企業製のプロダクトはそういう妙な非互換性をかかえてることが多い。

なにかをはじめるときに、既存のものをとりいれることをよしとしない変な
空気があるのか、なんなのか。
一旦非互換なものを作ると、顧客ロックインのためにしがみつく傾向もある。

世界的にも、コード共通化について意識したのは早かったのに、企業からの
参加者から縛られたくないだのなんだのの意見が多かった、と、コード会コードの
話にはあるよね。

214 :デフォルトの名無しさん:2009/09/15(火) 09:51:33
>>211
日本人お得意の、改良をしたがるんだよ。

後は囲いこみ。

215 :デフォルトの名無しさん:2009/09/15(火) 10:55:29
>日本ってコンピュータ言語とか互換性を重視しているわりに、

そもそもここがまちがい


216 :デフォルトの名無しさん:2009/09/15(火) 20:30:45
確かに。どっちかというと自分の理解できないものを無視してあたかもなかったことにすることのほうが
多いような。

217 :デフォルトの名無しさん:2009/09/16(水) 00:22:54
非互換で囲い込みってアフォだよな。
物理的に良いもので囲い込みとかのほうがよっぽどマシな結果になりそうだが、
それだけ競争が激しいということなんだろうか。

218 :デフォルトの名無しさん:2009/09/16(水) 01:06:35
DoCoMoとか自民党とかのことを思えば。

219 :デフォルトの名無しさん:2009/09/16(水) 04:31:09
競争が激しいのは客があほだから

220 :デフォルトの名無しさん:2009/09/18(金) 04:21:05
非互換に関してひとつには世に出る迄に時間がかかりすぎるから。
そして世に出てしまうとしゃにむにそれにすがってしまうから。

つまり最初に決めて行けば良いのだが,「社内」=「世の中」の人が
先に作り込みすぎてしまって方向転換が後ではできないから。

で、先に決めて行こうとすると「我れ先に足の引っ張り合い」をするので,うまくいかないと。

221 :デフォルトの名無しさん:2009/09/18(金) 07:59:27
>>220
> 非互換に関して
< 標準化しないのは

だろ。言いたいのは。
それに先にきちんと標準化しても、非互換の派生は出るぞ。

222 :デフォルトの名無しさん:2009/09/18(金) 08:09:02
売る側からすれば、ユーザ囲い込み機能を標準化してどうするんだよ・・・って感じだろ。
まあ、日本は欧米と違い、標準化の意識が薄いってのもあるけど。


223 :デフォルトの名無しさん:2009/09/18(金) 12:41:24
ようするに日本って標準化するという作業工程が下手なんだよな。
競争が激しくて足の引っ張り合いが多いんだろうけど。

最終的にユーザ側の不利益になってしまうなら、
非競争分野は標準化してそれを厳守、それ以外の要素で競争するのが望ましいと思うが、

なし崩し的に物事を進めていく傾向が強いのか、
まぁビジネスだから儲けてナンボではあるんだよね。

224 :デフォルトの名無しさん:2009/09/18(金) 23:16:20
俗流文化論的に分析してみる。

アメリカでは末端の能力が低いから、標準化をしなければやっていけない。
また、末端を束ねる立場にたつ人の能力には高いものが求められる。

日本では末端の能力が高いから、標準化なしでもなんとか出来てしまう。
また、能力の低いものが束ねる立場に立っても何とかなってしまうことが多い。

225 :デフォルトの名無しさん:2009/09/20(日) 20:30:16
日本の消費者はメーカー/プロバイダ乗り換えを考えない、自分の選択肢を狭めることに何も躊躇が無い人が多いんだと思うよ。
だから囲い込みが成功しやすいのだと思う。
これは日本のメーカー/プロバイダの品質の高さから来たものだが、消費者が信者化し貶しあう文化が生まれ、標準化の圧力が生まれてないのだと思う。

226 :デフォルトの名無しさん:2009/09/21(月) 02:34:37
日本人は単一民族だからな
みんなで力を合わせるのが苦手な人種
共通化の欲求よりも
足の引っ張り愛の
我田引水の圧力が勝ってしまう

227 :デフォルトの名無しさん:2009/09/21(月) 12:06:46
>>171
遅レスだがアイルランド・ドイツ提案に交通標識と地図用記号ってw
>>122とか将棋の全コマとか花札全種とかパソコンで使われる汎用アイコン一式とか企業のロゴとか各名詞や各動詞に対する絵文字とか追加していったらキリが無くね?

228 :デフォルトの名無しさん:2009/09/21(月) 13:56:41
杭全

229 :デフォルトの名無しさん:2009/09/21(月) 19:37:40
携帯絵文字は日本文化が色濃く出ててるから、
どの辺まですくい取るかが問題なんだろうけど。

日本の消費者は、あの顔文字じゃぁ気に入らないだろうなw
携帯電話は、従来通りキャリアごとに異なる形状でOKなんだろうか。

230 :デフォルトの名無しさん:2009/09/21(月) 20:02:30
UNICODEをシンプルに全部32bit文字としていれば、
絵文字ぐらい余った空間に簡単に置けれたのに。

一応65万文字分のコードポイントがあまっているとはいえ、
絵文字なんか入れたら足りなくなるかもな。

231 :デフォルトの名無しさん:2009/09/21(月) 20:38:12
そーいう問題じゃないだろ。

232 :デフォルトの名無しさん:2009/09/21(月) 23:28:37
世界標準は大事だと思うけど、
実際の形状を該当国・地域に強制するのは本当は良くないことなのではないか。
例えば顔文字で「スマイル」を意味するものがあったとして、
あくまでも受け手の問題なので、該当の国・地域で良い絵柄が選ばれるのが望ま
しいと思う。

実際に日本とその他の国または地域では表現上の好みの違いがあるわけで、
英語文化圏標準はこれ、日本文化圏標準はこれ、日本の九州地方はこれですと、
多段的なものであってもいいんでないの?

どの辺のドメインを区切るかというのはあるけど、わりに自由度があってしかる
べきものなのかもしれない。

世界標準なったら面白味の欠けるものになりそうなんだよな。


233 :デフォルトの名無しさん:2009/09/22(火) 23:13:23
今議論している絵文字は、あくまで既存の製品に実装されているものだけだから。
新しい絵文字を作ろうって話じゃないから。
つーか複数言語混在できないようなシステムはダメだろう

234 :デフォルトの名無しさん:2009/09/23(水) 11:45:36
>>233
アイルランド・ドイツ提案100回読み直せ

235 :デフォルトの名無しさん:2009/09/23(水) 14:45:26
絵文字といえばPDAM8の投票が終わった頃だな。
さて米・愛蘭独あたりはどんなコメントを寄せたか…

236 :デフォルトの名無しさん:2009/09/23(水) 18:45:38
文字として認識出るもの以外入れないで欲しいと常々思う。
外字って言うアイデアはシンプルで良かった。

237 :デフォルトの名無しさん:2009/09/25(金) 00:51:53
ユニコードにも外字エリアあるよね。
昔ほど必要性がなくなったかも

238 :デフォルトの名無しさん:2009/09/25(金) 10:22:55
いきなりで申し訳ないんだけど、ここの住人ならわかるかな?

AutoCADのデータを渡されたんだけど、そこに書いてある文字が

#F#R!%#6#6!!#S#E#C!% ←こんなの

この変な文字化けみたいな物をなんとかしろ!って言われたんだけど、
得たいの知らない記号みたいな物渡されても何がなんだか・・・

これが何なのか、また、どうやったら日本語として読めるのか、知恵を貸してほしいorz

239 :デフォルトの名無しさん:2009/09/25(金) 11:24:55
JISコード (ISO-2022-JP) のシフトIN/シフトOUT (エスケープシーケンス) が抜けたやつじゃないか
バイナリエディタかなんかで前後にシフトIN/シフトOUTを付加してJISコード対応のエディタかWebブラウザで開いてみ

240 :デフォルトの名無しさん:2009/09/25(金) 11:33:00
シフトIN、シフトOUTってなんだよ。
このスレの住人らしからぬ...

IN/OUTじゃなくてGOTOだ、ってその昔の和田先生のテキストにもあるだろうに。

0x1b(ESC) '$' 'B' という3バイトのシーケンスを先頭に。
0x1b(ESC) '(' 'B' という3バイトのシーケンスを末尾に。

その例だと "FR.66 SEC." だね。

241 :238:2009/09/25(金) 13:25:50
>>240
例を見てから、自分がわからないと言ってた文字を見てみると
「#」抜かせば、ある程度わかるじゃん!って事に気づいた。

JISコードって言うのかな?なんだか複雑そうで、正しい対処法はできないかもしれない。
内容量は多くないから、例を参考に睨めっこでもしながら修正していこうと思います。

「ド」がつく素人な者で、アドバイスを生かしきれなくて申し訳ないのですが、
どうもありがとうございます!

242 :デフォルトの名無しさん:2009/09/26(土) 01:22:38
>>241
こんなページを見つけたよ。
http://masaka.dw.land.to/mr/jmr.php

ここで、解読できるみたいだよ。

243 :デフォルトの名無しさん:2009/09/26(土) 14:58:37
絵文字提案に関係のある国は全部PDAM8に反対ですかそうですか。
N3681は前とどこが変わったのか分からんなあ。Oさんあたりが連載で書いてくれるかな。

244 :デフォルトの名無しさん:2009/09/29(火) 16:48:55
絵文字に便乗して、各国記号類の追加提案をしまくってるな…

245 :デフォルトの名無しさん:2009/09/29(火) 17:08:45
もうUNICODEに、国コード+その国用文字 というコードポイント作れよw
何万文字かを国ごとに割り当て、その国で自由に使い方を決める。


246 :デフォルトの名無しさん:2009/09/29(火) 23:38:23
てらISO 2022w

247 :デフォルトの名無しさん:2009/09/29(火) 23:51:18
絵文字の話が出ていたと思うけど、これは自然に出た発想だと思うよ
英語圏のサイトにあるチャットには大体絵文字がついてたりするし、日本一国の携帯にクローズアップしてるような印象を与えたのはマスコミに責任があるかなあ

248 :デフォルトの名無しさん:2009/09/30(水) 00:02:15
だって実際日本一国の携帯に対応するために提案されたんだし。

249 :デフォルトの名無しさん:2009/09/30(水) 01:02:56
UNICODEって合成文字って概念があるでしょ?
日本語なら、「は」と「゛」で「ば」とか
ウムラウトとかなんとかいうの。

それを拡張して、たとえば、32ドット×32ドットの格子の
升目一個を塗りつぶした形を合成文字にして
合成文字を複数組み合わせて、絵を作るという発想

250 :デフォルトの名無しさん:2009/09/30(水) 01:15:46
デメリットをよりもメリットがあるのか?それ

251 :デフォルトの名無しさん:2009/09/30(水) 01:28:53
犬+首輪=首輪を付けた犬
こんな合成文字でプレインテキスト書きたいです

252 :デフォルトの名無しさん:2009/09/30(水) 02:47:06
犬+首輪+横向き+吠える+擬人化 の絵文字ください。

253 :デフォルトの名無しさん:2009/09/30(水) 09:43:24
 |+-夕胃ノしよ"ぁぃハ合成文字っつーかまmどくせ

254 :デフォルトの名無しさん:2009/09/30(水) 10:28:24
>>252
人狼ですね、判ります。

255 :デフォルトの名無しさん:2009/09/30(水) 11:12:14
狼+林檎+横向き+萌える+擬人化 の絵文字ください。

256 :デフォルトの名無しさん:2009/09/30(水) 20:58:07
ある意味で当事者とも言える、キャリアの人が書いた文書。

世界のケータイ事情「ケータイ絵文字がグローバルに」
http://k-tai.impress.co.jp/docs/column/worldstrend/20090930_318157.html

257 :デフォルトの名無しさん:2009/09/30(水) 21:05:47
鬼と天狗はさすがに日本も「せめて名前にJapaneseをつけろ」とツッコミ入れてたっけ

258 :デフォルトの名無しさん:2009/10/01(木) 13:28:28
絵文字より「.日本」をどうにかしろよと思う
レイヤー違う話だけど

259 :デフォルトの名無しさん:2009/10/01(木) 17:22:35
窓の杜 - 【NEWS】マイクロソフト、Windows 7のMS系フォントをXP互換に戻すパッケージを公開

ttp://www.forest.impress.co.jp/docs/news/20091001_318719.html

ワラタ

260 :デフォルトの名無しさん:2009/10/01(木) 19:13:42
>>259
TrueTypeやOpenTypeって字形やglyphを選ぶ機能持ってるのに、これフォントごと入れ替えてるの?
字形選択機能に対応してるアプリはそのままで良いし、そうでない物はフォントレンダラに対して
デフォールトの字形を設定する手段を提供すれば良いと思うんだけど...

261 :デフォルトの名無しさん:2009/10/01(木) 20:55:28
レンダラで処理されるサイズではなくて内蔵ビットマップを使うサイズのグリフの問題だから、だと思う。

ttp://www.microsoft.com/japan/powerpro/TF/column/ro2_01_3.mspx
<< MS UIゴシック / MS P ゴシックの変更 >>

こんな話も。

262 :デフォルトの名無しさん:2009/10/03(土) 00:21:58
WindowsはIVSに対応しないんだろうか…

263 :デフォルトの名無しさん:2009/10/03(土) 01:03:37
IVSってなんのこと?

264 :デフォルトの名無しさん:2009/10/03(土) 01:06:22
異字体セレクタ

265 :デフォルトの名無しさん:2009/10/03(土) 01:09:35
ふーん。初めて聞いた。

266 :デフォルトの名無しさん:2009/10/03(土) 05:09:39
だっせ

267 :デフォルトの名無しさん:2009/10/03(土) 05:41:51
おっくれてる〜

268 :デフォルトの名無しさん:2009/10/03(土) 18:51:34
>>108
Amd.2で修正される前の話。知る限りこの時点では誰も指摘してなかった。
http://academy6.2ch.net/test/read.cgi/gengo/1040929046/170
USIを最初に指摘したのもやっぱりAmd.7よりはるか大昔(2chじゃないけど)。
> それでも足りないのがある?
USIを含んだJIS X 0213非漢字のExtended Collection

UTS #37の公開レビューだって最初の締め切り直前に某所でコメントするまで
日本じゃ全くといっていいほど話題になってなかった。

269 :デフォルトの名無しさん:2009/10/03(土) 19:17:11
Unicode 5.2.0 リリース
http://www.unicode.org/versions/Unicode5.2.0/
今回もちゃんとレビューコメントは反映されてた。
「個別に返事しない」と言っているにもかかわらず返事くれたし

270 :デフォルトの名無しさん:2009/10/05(月) 23:01:12
age

271 :デフォルトの名無しさん:2009/10/06(火) 00:11:42
>>269
数年チェックしてなかったけど、Ext.C収録されたのね。ずいぶん数減ったなぁ。
昔は面をまるごと使いかねないくらい大量にあった気がする。

272 :デフォルトの名無しさん:2009/10/06(火) 08:54:31
>>269
Windows版はどこでダウンロードするの?

273 :デフォルトの名無しさん:2009/10/06(火) 10:39:11
>>272

274 :デフォルトの名無しさん:2009/10/06(火) 12:06:30
ステレオタイプというか典型的な質問に、全力でワロタw

275 :デフォルトの名無しさん:2009/10/07(水) 22:49:37
http://mainichi.jp/select/today/news/20091008k0000m030036000c.html
文字コードはどうすんだろう。

276 :デフォルトの名無しさん:2009/10/07(水) 23:14:53
そりゃ、名前の正式な表記が今やっと分かったって話で、
新しいハングルや漢字が生まれたわけじゃない。既存のでOK。

277 :デフォルトの名無しさん:2009/10/08(木) 01:27:28
275が言ってるのは、北朝鮮の文字コード規格KPS 9566のことだと思われ。

当然、また新たに3文字が追加されるんだろうw



278 :デフォルトの名無しさん:2009/10/08(木) 03:39:47
>>275 のは U+C6B4 → U+C740 という話。



279 :デフォルトの名無しさん:2009/10/08(木) 05:35:46
北朝鮮でもUNICODE使ってるのか
南朝鮮のと同じじゃだめなん?

280 :デフォルトの名無しさん:2009/10/08(木) 20:54:25
N3684は各国いろんなこと言ってるけど、要求が衝突してるのは
やっぱり例の国旗用互換文字か。
こりゃ東京でもad-hoc、下手すりゃPDAM 8.2コースか。

しかし日本もこの機会に入れたい記号類、何かないのかね。

281 :デフォルトの名無しさん:2009/10/08(木) 23:00:21
ぜんぜん日本語と関係ないけど、電源スイッチの記号は入らないのかねえ
上が切れた○に棒が刺さってるようなやつ

282 :デフォルトの名無しさん:2009/10/09(金) 09:55:21
こんな顔だったかい?
□□□■□□□
□■□■□■□
■□□■□□■
■□□□□□■
■□□□□□■
■□□□□□■
■□□□□□■
□■■■■■□

283 :デフォルトの名無しさん:2009/10/09(金) 11:24:17
メニューキーもきぼん
■■■■■■■■□□□□
■□□□□□□■□□□□
■□■■■■□■□□□□
■□□□□□□■□□□□
■■■■■■■■□□□□
■■□□□□■■■■□□
■■■■■■■■■□□□
■□□□□□□■□□■□
■□■■■■□■□□□■
■□□□□□□■□□□□
■□■■■■□■□□□□
■□□□□□□■□□□□
■■■■■■■■□□□□

284 :デフォルトの名無しさん:2009/10/10(土) 00:31:01
文字コードのことわかってないおとこ大杉。。。

285 :デフォルトの名無しさん:2009/10/10(土) 01:12:17
良くわからないけど、結局、全世界の文字を集めたら32ビットでたりそうなの?

286 :デフォルトの名無しさん:2009/10/10(土) 01:49:15
最近絵文字が流行り出したから32bit空間は枯渇したらしい

287 :デフォルトの名無しさん:2009/10/10(土) 09:03:20
ここいらで絵文字が絵なのか文字なのかはっきりさせとくべき
ちなみに俺は絵文字は絵であって文字コードに入れるのはナンセンスだと思ってる

288 :デフォルトの名無しさん:2009/10/10(土) 09:23:01
Unicodeの空間は21bitsですよ

289 :デフォルトの名無しさん:2009/10/10(土) 14:17:07
21bitあれば210万近く文字使えるんだから
10万文字ぐらい絵文字にくれてやっても良いじゃないか?

290 :デフォルトの名無しさん:2009/10/10(土) 14:26:45
だがことわる

291 :デフォルトの名無しさん:2009/10/10(土) 15:30:06
21bit全部に文字が割り当てられるわけじゃなくて、実際に定義or予約されているのは110万程度。
10万は面をまたぐことになるのでアレだけど、1面丸ごとpictgramsに割り当てるのはアリかもね。

292 :デフォルトの名無しさん:2009/10/10(土) 16:33:19
何か基準がないとなしくずしに絵文字!絵文字!絵文字!

293 :デフォルトの名無しさん:2009/10/10(土) 23:11:38
今回限りにしてくれるんなら多少こういう妙なものが入ってるのも
おもしろいかなあと思うけど、
このまま今後ずるずるとこういうものが入り始めるのは御免こうむりたい

294 :デフォルトの名無しさん:2009/10/11(日) 03:41:07
絵文字を入れるのは変体仮名と平仮名・片仮名の合字すべてを入れてからにしてくれよ。
そっちの方が先だろうが。

295 :デフォルトの名無しさん:2009/10/11(日) 03:51:39
n3695渋いねえ。簡体字って歴史浅いくせにもう廃止された字があるのか。
しかしよくこんなの見つけてくるわホント。

296 :デフォルトの名無しさん:2009/10/11(日) 07:21:17
ユニコードの体系変わったら
OS側も合わせなきゃ意味ないよね?
フォントとかも

297 :デフォルトの名無しさん:2009/10/11(日) 07:41:08
>>295
1935年の第一批簡体字、シンガポールで使われていた簡体字、それと二簡字か。
二簡字はわりと有名だけど、1935年の第一批簡体字の方は見たことなかった。
ソースのスキャンが欲しいな。

298 :297:2009/10/11(日) 08:05:33
ってPDFの後ろに画像ついてたわ。俺あほす

299 :デフォルトの名無しさん:2009/10/11(日) 13:37:45
将来、漢字みたいに使う絵文字だけの言語もできるかもしれんしな。ないけど

300 :デフォルトの名無しさん:2009/10/11(日) 13:48:04
象形文字とか、古代の文字はそんな感じじゃね?

301 :デフォルトの名無しさん:2009/10/11(日) 13:50:18
文字の退化。

302 :デフォルトの名無しさん:2009/10/11(日) 14:14:41
脳の退化

303 :デフォルトの名無しさん:2009/10/11(日) 22:29:43
中国のナシ族のトンパ(巫師)が使う文字は、
一応現役の象形文字だろうね

304 :デフォルトの名無しさん:2009/10/11(日) 23:02:28
よし、ここで俺が、
数式文字と音符をUnicodeに含めることを提案する!

305 :デフォルトの名無しさん:2009/10/11(日) 23:08:08


306 :デフォルトの名無しさん:2009/10/11(日) 23:13:15
>>305
ちげーよ。

音階ごとだよ。

307 :デフォルトの名無しさん:2009/10/11(日) 23:23:04
じゃあ聞くが、音階ごとだと何個必要なんだ?

308 :デフォルトの名無しさん:2009/10/12(月) 00:11:51
たしか全角で911とかをwindingsで表示すると

309 :デフォルトの名無しさん:2009/10/12(月) 00:38:20
911って緊急通報用電話番号か?

310 :デフォルトの名無しさん:2009/10/12(月) 00:40:35
>>307
しらね。

楽譜で表せる程度なんだから
たいした数じゃないだろ?

311 :デフォルトの名無しさん:2009/10/12(月) 00:45:10
>>310
数えてみろよ
たいした数じゃないんだろ?

312 :デフォルトの名無しさん:2009/10/12(月) 01:16:48
まあまあ、楽譜って世界共通だという印象だけど、
それが入っていないってのはなんか不思議な感じがする。
アナログ的なものだからあんまりコンピュータと同時に利用する場面がないのかしら。

313 :デフォルトの名無しさん:2009/10/12(月) 01:21:34
音符はもうあったはず

314 :デフォルトの名無しさん:2009/10/12(月) 01:22:55
だから具体的に音階ごとだと何種類入れればいいと思ってんだ?
それに、例えば32x32程度のドットで表現できる?64でもいいよ?
ていうか、楽譜みたことあんの?

315 :312:2009/10/12(月) 01:32:21
音階について詳しく知らないのだが、
もしかして低音と高音ともに限界のない表現方法だったりするの?

まぁ普段の生活で必要な程度の記号の範囲で良いとおもうけどね。

316 :デフォルトの名無しさん:2009/10/12(月) 01:37:02
人間の可聴範囲でも20,000Hzなんだから
1Hzに1文字割り当てたとしても、
2万個もいかんだろ?たったこんだけ。

317 :デフォルトの名無しさん:2009/10/12(月) 01:41:07
文字コードはあくまで文字コードであって
グリフは規定されて無いから、32×32ドットといわれても意味が無い。

318 :デフォルトの名無しさん:2009/10/12(月) 01:41:29
使わない文字に2万も浪費するって時点でフォント屋がキレそうだが
楽譜でふつうに使われる和音と長さ、連符休符など組み合わせるとウンザリするな

319 :デフォルトの名無しさん:2009/10/12(月) 01:43:47
>>317
素直に負けをみとめろよw

320 :デフォルトの名無しさん:2009/10/12(月) 02:07:29
楽譜ってそんなに体系化されてないだろ
人によっても色々書き方違うし
だからってITの分野とちがって標準化すればいいってもんでもないしな
普通に記号だけでいいと思うよ

321 :デフォルトの名無しさん:2009/10/12(月) 02:16:16
音階が欲しいって言ってんじゃん。

322 :312:2009/10/12(月) 02:20:51
まぁ、あれだ。
単一の記号で表現できるものと、できないものがあるから、
文字コードとして適正のあるものと無いものがあるというところかな。


323 :デフォルトの名無しさん:2009/10/12(月) 02:24:31
なんだこいつ

324 :デフォルトの名無しさん:2009/10/12(月) 03:25:47
>>323
ふぁびょるなよw
もうちっと楽しませろクズw

325 :デフォルトの名無しさん:2009/10/12(月) 06:54:49
「五線譜とその第一線上の四分音符」なんてのは
音楽系の平文に埋め込まれた利用例あるだろな。

326 :デフォルトの名無しさん:2009/10/12(月) 07:26:45
そういうのはXMLの仕事だったはずでしょ。

327 :デフォルトの名無しさん:2009/10/12(月) 08:25:12
携帯絵文字が入って、化学記号や数式記号が入らない理由が見つからない。

328 :デフォルトの名無しさん:2009/10/12(月) 09:01:59
♪ とか♪とか欲しい
 ̄   ・

329 :デフォルトの名無しさん:2009/10/12(月) 10:37:12
>>328
文字化けしたらスマン
𝅘𝅥𝅮𝅽 U+1D160 + U+1D17D
𝅘𝅥𝅮𝅭 U+1D160 + U+1D16D

330 :デフォルトの名無しさん:2009/10/12(月) 12:41:29
一度でもまともに楽譜を見たことがあるなら、音階ごとに四分音符を並べるだけのものなんて無意味に近いと判りそうなもんだが。
MusixTexのマニュアルとか読んでみろよ。

331 :デフォルトの名無しさん:2009/10/12(月) 18:45:48
コルトレーンとかもうね...
http://www.youtube.com/watch?v=2kotK9FNEYU

332 :デフォルトの名無しさん:2009/10/12(月) 19:30:42
phpからPEARのMail.phpを使用してWeb上から
ソフトバンクのケータイに日本語のメールを送信すると
文字化け?してるのかわかりませんが日本語の部分が表示されません。

ソフトバンクのケータイはutf-8じゃないといけないとどっかのサイトで見つけたので
mb_language("ja");
mb_internal_encoding("UTF-8");
mb_convert_encoding($Message,"UTF-8","auto");
のように変換を行ったのですが、うまく変換されてないのか成功しません。

変換ができてないのか、それとも文字コードの指定事態が間違ってるかすらも検討がつかなくて
どーすればいいかわからない状況です。

333 :デフォルトの名無しさん:2009/10/13(火) 01:02:39
>>321
音階にも種類があるでよ?

334 :デフォルトの名無しさん:2009/10/13(火) 01:16:44
12平均律だけならいいけど、31とか53平均律なんてものも世界には存在してだな

335 :デフォルトの名無しさん:2009/10/13(火) 01:20:14
まだやんの?その話

336 :デフォルトの名無しさん:2009/10/13(火) 01:25:04
>>332
webprog板だかで聞くべし

337 :デフォルトの名無しさん:2009/10/13(火) 11:21:41
絵文字は文字で(絵じゃない)、音符は絵の一種に見える(文字でも記号でもない)俺は異端かなぁ……

338 :デフォルトの名無しさん:2009/10/13(火) 11:31:07
敢えて言おう。音符を入れるくらいなら気象記号を入れてみろ。
どちらも手書きであるが故の美しさがあると言う点で、絵のようなものだ。

339 :デフォルトの名無しさん:2009/10/13(火) 14:46:20
地図記号が絵文字関連で幾つか入るようだから、天気図記号が入っても悪くはないはず。

ただ、こういうのってXMLとかでの実用が前提じゃなかったっけ?知らんけど。

340 :デフォルトの名無しさん:2009/10/13(火) 15:01:12
国ごとに微妙に違うからなあ

341 :デフォルトの名無しさん:2009/10/13(火) 20:26:24
>>338
手書き故の美しさを言い出したら、
文字全部そうじゃね?

342 :デフォルトの名無しさん:2009/10/13(火) 20:28:43
地図記号って、おまんじゅう工場も入るのか?

343 :デフォルトの名無しさん:2009/10/13(火) 20:47:41
おまん工場

344 :デフォルトの名無しさん:2009/10/16(金) 00:37:32
シフトJISの外字領域とMS932の外字領域のコード範囲は同じなのでしょうか?

345 :デフォルトの名無しさん:2009/10/16(金) 11:47:37
JISのシフトJISに外字領域は無い。

346 :デフォルトの名無しさん:2009/10/21(水) 09:33:11
>>47
CJKV Information Processing の2版がgoogleブックに登場してた。
Ebook Release: June 2009
この時期に登場したのか?

ttp://books.google.co.jp/books?id=SA92uQqTB-AC
ttp://oreilly.com/catalog/9780596514471/preview

347 :デフォルトの名無しさん:2009/10/22(木) 18:17:37
最近更新がないと思ったら、小形さんこんなの準備してたんだ。
とうとう単なる傍観者じゃいられなくなりましたか。
しかし来週はこりゃ絵文字の議論だけで終わりそうな勢いだ。

348 :デフォルトの名無しさん:2009/10/22(木) 21:20:19
http://www.otacky.jp/files/oald7/oald7-pkg.el
ここのページにある記号を自作プログラムで扱いたいんですけど、
firefoxでutf-8で記号が読めるので
テキスト文書を(IE8)でutf-8にして文書全部をコピーして
貼り付けて見たところ数割くらいが?マークになってしまいます.
utf-8って複数あるんでしょうか?どうやったら保存できるんでしょうか.
osはvistaです.

349 :デフォルトの名無しさん:2009/10/22(木) 21:23:02
どこに貼り付けたんだ?
貼り付けた先のアプリケーションがUnicodeに対応していないのでは?

350 :デフォルトの名無しさん:2009/10/22(木) 21:29:49
テキスト文書utf8_1.txtというファイルを作って貼り付けたんですけど
クリップボード他入出力がダメなんでしょうか

351 :348:2009/10/22(木) 21:39:53
すいません、
ブラウザからそのファイルへのリンクを右クリックしてとりあえず
情報が失われないように保存は出来たんで、また自分で
色々やってみますお騒がせしました

352 :デフォルトの名無しさん:2009/10/26(月) 06:17:08
あれで参加者の反発を買わないよう配慮したつもりなのか…

353 :デフォルトの名無しさん:2009/10/26(月) 06:24:13
>>347
顔文字ジェネレータ面白いなw
http://fonts.jp/emoji/images/00.02.05.23.26.27.png
http://fonts.jp/emoji/images/00.02.04.25.34.png
無理とは分かっていても合字グリフの方向へ持ってって欲しいなと感じてしまったw

354 :デフォルトの名無しさん:2009/10/26(月) 06:42:20
http://fonts.jp/emoji/images/00.02.16.23.33.png
http://fonts.jp/emoji/images/00.02.05.25.26.32.png
http://fonts.jp/emoji/images/00.02.03.16.32.png
http://fonts.jp/emoji/images/00.02.08.23.34.png
http://fonts.jp/emoji/images/00.02.15.19.33.png

355 :デフォルトの名無しさん:2009/10/26(月) 06:55:44
顔だけじゃなくて胴体も入れようぜ→それなんてサウスパークジェネレーター?

356 :デフォルトの名無しさん:2009/10/27(火) 13:19:23
PSOのシンボルチャットを連想したのは私だけではないはずだ。

357 :デフォルトの名無しさん:2009/10/28(水) 01:00:41
グリフ変更というeditorialな部分は通ったけど
その他のtechnicalな部分は全部預かられてしまったと

んーどうだろ、一応顔は立ててもらえたようだけど

358 :デフォルトの名無しさん:2009/10/29(木) 00:05:59
>>356
確かにPSOのシンボルチャットっぽいw

359 :デフォルトの名無しさん:2009/11/01(日) 18:37:16
EUCもSJISもJISも面倒見てくれるktermが、UTF-8以外は排除するxtermに駆逐されたのは納得いかない

360 :デフォルトの名無しさん:2009/11/03(火) 07:24:03
javaでWindows31-J⇔Unicodeの変換で、外字領域を含めて変換できない文字はあるのでしょうか?


361 :デフォルトの名無しさん:2009/11/03(火) 12:17:25
バージョンによっても違うからここ読め
http://www.ingrid.org/java/i18n/encoding/

362 :デフォルトの名無しさん:2009/11/03(火) 17:00:14
>>361
お答えありがとうございます。
Java5なのですが、のっていなかったです。
Shift-JISでいうところの外字領域は対応しているのは実際に確認しました。
変換に失敗するとまずいので、保障が欲しいのです。
また、変換できない文字があれば事前にチェックをしたいので、変換できない文字を知りたいのです。

363 :デフォルトの名無しさん:2009/11/03(火) 17:07:45
全部変換してみりゃいいだろう

364 :デフォルトの名無しさん:2009/11/03(火) 18:22:33
>>362
想定する文字セットが提示されていれば、
その中で変換できない文字を調べられるけど
漠然と変換できない文字って言われてもな……

365 :デフォルトの名無しさん:2009/11/03(火) 18:27:53
Windows 31Jってデーヴァナーガリー文字とかも含んでるの?


366 :デフォルトの名無しさん:2009/11/03(火) 18:32:31
Windows31JからUnicodeに行って戻ってこれれば十分なのか
⇔記号の見た目通り相互変換を意味しているのか


367 :デフォルトの名無しさん:2009/11/03(火) 23:50:44
Windows3.1Jってまた懐かしいなw


368 :デフォルトの名無しさん:2009/11/04(水) 01:11:03
>>365
ないよ。要はシフトJISだし。

369 :デフォルトの名無しさん:2009/11/04(水) 01:33:56
外字ありだぜ?

370 :デフォルトの名無しさん:2009/11/04(水) 04:24:15
>>367
3.1・・・ってまさか・・・


勘違いしてる気がするw

371 :デフォルトの名無しさん:2009/11/04(水) 18:25:03
OS(XP)の外字エディターで、U+21336の文字(土並)を参照表示させる事は可能?

372 :デフォルトの名無しさん:2009/11/08(日) 21:23:05
外字エディタってそういう風に使うものなの?

373 :デフォルトの名無しさん:2009/11/09(月) 10:59:59
単?

374 :デフォルトの名無しさん:2009/11/09(月) 20:02:26
>>372
Windowsの外字エディタは字形の原形として既存のフォントからグリフを読み込んで
そのビットマップをちょこちょこいじって外字を作ることができるんですよ。読み込み
インタフェースがBMPの符号位置しか選択できないように見えるので、何かSIPの
文字を読む方法ない?っていう相談なんじゃないかな。

>>371
Windows XP SP2しか手元にないけど、SimSun (FounderExtended)から
SIPの漢字を読み取る方法はわかんなかった。MS-IMEの「文字一覧」もそう
だけど、どうもこれの設計はcp932とBMPだけで完結しちゃってる気がする。

この漢字はHKSCSにも入っているようなので、HKSCS対応のフォントだと
強引にBMPのどっかの符号位置にマップしてたりしませんかねえ。。。

375 :デフォルトの名無しさん:2009/11/09(月) 22:38:02
>>374
>既存のフォントからグリフを読み込んで
なるほど、知らなかった。ありがとう。

>>371
374の言う通り、HKSCS対応のフォントでU+EB00に[土並]があった。
フォント名で言えばMingLiU_HKSCSとかDfSongStdとかMing(ISO 10646)とか。

376 :デフォルトの名無しさん:2009/11/10(火) 21:25:30
Oさん意気揚々ですな

377 :371:2009/11/17(火) 00:59:07
>>374>>375
thx
試してみます

378 :デフォルトの名無しさん:2009/11/18(水) 18:21:34
UTF-8をSHIFT-JISに変換するコードどこかないでしょうか?
iconv UNIX,LINUX系統以外


C/C++
Windows VC++ 環境で

379 :デフォルトの名無しさん:2009/11/18(水) 20:24:41
MultiByteToWideChar()
WideCharToMultiByte()

380 :デフォルトの名無しさん:2009/11/19(木) 00:30:54
自分で書けばええやん

381 :デフォルトの名無しさん:2009/11/19(木) 00:57:52
>>378
http://pc12.2ch.net/test/read.cgi/tech/1214657360/715
メモリ解放は自分でやれ

382 :デフォルトの名無しさん:2009/11/29(日) 15:50:10
Win7では異体字セレクタ対応してた。
対応フォントは付いてないけどY.Ozフォント入れてメモ帳とOpenOfficeで出来た。
モンゴル文字や数学記号のBMPの異体字セレクタを使ったものは使えるかどうか知らんが、とりあえずU+E0100〜の漢字用異体字セレクタは使えるみたい。

383 :デフォルトの名無しさん:2009/11/29(日) 19:44:29
fdam8の1F61Dはこういうデザインなのかはたまたゴミが混じっているのか…

384 :デフォルトの名無しさん:2009/11/29(日) 19:46:03
fdam8じゃないやfpdam8だった

385 :デフォルトの名無しさん:2009/11/30(月) 01:52:14
>>383
見てみた。ワラタ

386 :デフォルトの名無しさん:2009/11/30(月) 11:26:47
毛が抜けてショボーンな波平

387 :デフォルトの名無しさん:2009/12/04(金) 08:10:10
unicode対応でWindowsプログラムを作成しているのですが、
英語以外、日本語やアラビア語などすべての文字が使える
フォントを教えてください。


388 :デフォルトの名無しさん:2009/12/04(金) 22:54:15
ない。

389 :デフォルトの名無しさん:2009/12/04(金) 23:02:43
フォント作成の会社に問い合わせればいいんじゃない?

390 :デフォルトの名無しさん:2009/12/05(土) 00:24:02
ttf/otfの仕様上、全部込みのフォントを作ること自体無理。
ただ漢字以外全部なら作れるかもしれない。

391 :デフォルトの名無しさん:2009/12/05(土) 00:57:16
まずはArial Unicode MSから。

392 :デフォルトの名無しさん:2009/12/05(土) 06:10:41
code2000でも使っておけ

393 :デフォルトの名無しさん:2009/12/07(月) 20:30:47
失礼致します。

現在、「Unicode」に収録されていない「GB18030」の文字を調査しております。
調べた結果ではチベット語や康熙字典、少数民族で使われている特殊漢字が
未収録らしいとうことしかわからず、具体的な文字と文字コードを見つる
ことができませんでした。

未収録の具体的な文字とそのGB18030の文字コードを1文字でもいいので知りたいのです。
ご存知の方がおりましたらどうかご教授して頂けないでしょうか。

394 :デフォルトの名無しさん:2009/12/07(月) 21:58:06
中国人にでも聞けば?

395 :デフォルトの名無しさん:2009/12/08(火) 07:29:21
Adobeの中の人あたりとかが知ってそうだな。
小形さんあたりに知ってそうな人紹介してください、って頼めば、教えてもらえるんじゃないか?

396 :デフォルトの名無しさん:2009/12/08(火) 08:04:35
なーんか、ろくすっぽ英語も中国語も読まない上に、
ネットで漁ることだけを「調べる」と言い切ってる某ブログの人みたいだな。。。。

OPACで関連文献がありそうな図書館に足を運んだり、または
赤坂の日本規格協会の海外規格ライブラリとかはちゃんと調べたの?

397 :デフォルトの名無しさん:2009/12/08(火) 20:00:54
>>393
全部入ってるだろ。

398 :デフォルトの名無しさん:2009/12/09(水) 02:44:02
>>393
http://www.google.co.jp/search?hl=ja&lr=&num=50&q=gb18030+%E4%B8%80%E8%A6%A7
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1010865940
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1210910707
よくわかんないけど2番目のマッピングテーブル見て3番目のフォント調べればあるんじゃないの?

399 :デフォルトの名無しさん:2009/12/09(水) 11:41:44
それはテーブルもフォントも2000年版ベースだな。
いずれにせよ全部Unicodeに入ってるだろ。

400 :デフォルトの名無しさん:2009/12/09(水) 17:45:53
>>393
もしかしてGBKの
A98A→到底漢字には見えない点々の集まり
FE5D→常の冠の部分チョンチョンチョンみっつ
とかの文字の事じゃない?
GBKでは未定義だけどGB18030では全ての文字がUnicodeで定義されているよ(A98A→U2FF0のように)

401 :デフォルトの名無しさん:2009/12/09(水) 18:09:01
393です。

皆様方ご教授下さり有難うございます。
396さんの仰るとおりネット上で調べただけであり、文献など
そのようなものがあったことをを全く知らずお恥ずかしい限りです。
GB18030は全ての文字がUnicodeで定義されているのですね。
調べた上で分かったといっていた内容は古い情報だったのでしょうか。

長々と失礼しました。改めまして、皆様方有難うございました。

402 :デフォルトの名無しさん:2009/12/16(水) 15:24:16
シフトJISのGB2312版(シフトGB?)みたいなコードセットってあるの?

403 :デフォルトの名無しさん:2009/12/16(水) 18:41:44
安岡センセのあれはつまりGoogle以外はBMPしか通らないってことなのかな。

404 :デフォルトの名無しさん:2009/12/16(水) 23:34:17
ttp://ja.wikipedia.org/wiki/UTF-8#.E3.82.A8.E3.83.B3.E3.82.B3.E3.83.BC.E3.83.89.E4.BD.93.E7.B3.BB
1B U+0000...U+007F 0xxxxxxx (00-7f) 07bit
2B U+0080...U+07FF 110yyyyx 10xxxxxx (c0-df)(80-bf) 11bit
3B U+0800...U+7FFF 1110yyyy 10yxxxxx 10xxxxxx (e0-ef)(80-bf)(80-bf) 16bit
4B U+10000...U+1FFFFF 11110yyy 10yyxxxx 10xxxxxx 10xxxxxx (f0-f7)(80-bf)(80-bf)(80-bf) 21bit
だと。

405 :デフォルトの名無しさん:2009/12/17(木) 00:22:32
>>402
高電社の日中翻訳ソフトとかは、Windows 98時代までは
GB 2312 をShift_JIS流にして日本語Windowsで無理やり中国語を使ってたね。

406 :デフォルトの名無しさん:2009/12/17(木) 09:25:58
>>405
てことは、中国語版MS-DOSやWindowsでは、GB18030以前ないしUnicode以前は
ふつうはEUC-CN使ってたの?

407 :デフォルトの名無しさん:2009/12/17(木) 10:32:56
なぜ「てことは」になるのかわからん。
Shift_JIS流だとあるのに、なぜEUC-CN?

408 :デフォルトの名無しさん:2009/12/17(木) 22:41:58
>>406
こんな低レベルな質問をする人が402だったなんてショックです。
てかコードページも知らないで>>402の質問をする本意はなんなんだ?

409 :デフォルトの名無しさん:2009/12/17(木) 22:43:05
MS-DOS 5.0〜WindowsXPまでのコードページ
ttp://msdn.microsoft.com/en-us/goglobal/cc563921.aspx
Supported Code Pages (コードページなしは変換)
ttp://msdn.microsoft.com/en-us/library/aa288104(VS.71).aspx
Code Pages Supported by Windows (コード表)
ttp://msdn.microsoft.com/en-us/goglobal/bb964654.aspx

410 :デフォルトの名無しさん:2009/12/17(木) 22:59:59
>>405
Shift_JIS流って、
Shift_JISのJIS X 0201 kanaに相当する部分は何が入っていたの?

411 :デフォルトの名無しさん:2009/12/17(木) 23:01:11
うるさいな

412 :312:2009/12/17(木) 23:07:42
そういえば、常用漢字表が2010年に改訂するって小耳に挟んだんですが、
具体的に困ることってあるんですか?

413 :デフォルトの名無しさん:2009/12/17(木) 23:11:55
http://itpro.nikkeibp.co.jp/article/COLUMN/20091209/341831/

414 :デフォルトの名無しさん:2009/12/17(木) 23:20:00
この記事わかりずらいですね。だれか簡単に翻訳してw


415 :デフォルトの名無しさん:2009/12/17(木) 23:22:37
ならば、君には関係の無い話なんだよ

416 :デフォルトの名無しさん:2009/12/17(木) 23:28:52
要約:「常用漢字にシフトJIS範囲外の文字が入る。困った」

そんな文字使わなきゃいいんだけど、常用漢字に入ると名前に使えるよ
うになるので人名を扱うシステムでは将来困るね。


417 :デフォルトの名無しさん:2009/12/17(木) 23:34:56
無知で申し訳ないけど、
常用漢字という定義は、公共なシステムで例えば住民基本台帳とかそういうので
サポートされるという意味になるの?

418 :デフォルトの名無しさん:2009/12/17(木) 23:36:46
違う
プログラム的にはまったく関係が無い

419 :デフォルトの名無しさん:2009/12/18(金) 04:15:01
>どうしても「??」がサポートできそうにないなら、その旨を文化審議会国語分科会に陳情する、という手も残されている。

何で一OSメーカーの怠慢を文化審議会が肩代わりしないといけないんだよ。

420 :文字化けしちゃったよ:2009/12/18(金) 04:22:04
上の引用文中にある
?? は ��

421 :デフォルトの名無しさん:2009/12/18(金) 05:00:47
「XPのメモ帳はサロゲートペアを2つの文字として扱ってしまう」というのが
何のことかよく分からん。
今XP sp3のメモ帳で試してみたけど、ちゃんと1文字扱いされてる。

422 :デフォルトの名無しさん:2009/12/18(金) 08:04:33
>>419
常用漢字表の標準字体に、
使われてないタイプを採用する文化審議会がおかしい。

423 :デフォルトの名無しさん:2009/12/18(金) 08:51:01
>>421 確かにXPはサロゲートペアにはだいぶ前から対応してた気がするな。

424 :デフォルトの名無しさん:2009/12/18(金) 10:45:17
>>423
確かに気がしますね。

425 :デフォルトの名無しさん:2009/12/18(金) 13:03:30
MSはサロゲート対応早かったよ
XP+Word 2000という組み合わせでもサロゲートペアの文字が使えてた

426 :デフォルトの名無しさん:2009/12/19(土) 00:39:28
Surrogate Support in Microsoft Products
ttp://unicode.org/iuc/iuc18/papers/a8.ppt

ソフトによって、消すとき二回消さないといけないとか、あったかも。

unicodeの表示処理は、uniscribe(usp10.dll)経由だから、
バージョンアップで合字とかも対応できたりする。
ttp://ja.wikipedia.org/wiki/Uniscribe
ttp://charset.info/surrogate.html

関係ないけど、改定常用漢字表の記事その2
ttp://internet.watch.impress.co.jp/docs/column/jouyou/20091217_336436.html


427 :デフォルトの名無しさん:2009/12/19(土) 02:02:32
文章を書く時に、常用漢字表という枠組みを意識している人って
どれぐらいいるんだろうね。

428 :デフォルトの名無しさん:2009/12/19(土) 02:11:21
役人、新聞編集、教科書ライター、学校職員

429 :デフォルトの名無しさん:2009/12/19(土) 04:14:01
Unicodeのメジャーバージョンアップに、10646の改訂に、
Shift_JISでは扱えない字を含む常用漢字表。

来年は色んな点において節目の年になりそうだ。

430 :デフォルトの名無しさん:2009/12/19(土) 04:25:20
大抵のかな漢字変換ソフトには常用漢字や学年別学習漢字での制限があるしな。

431 :デフォルトの名無しさん:2009/12/19(土) 12:31:13
バックエンド(DBなど)は、http://ja.wikipedia.org/wiki/Shift_JIS-2004
みたいな拡張エンコードも採用されてるけど、フロントエンドは互換性の問題でないよな。


叱のロ七ってUnicodeでなんで別コードになったんだっけ?
ttp://homepage.mac.com/ogwata/.Public/0213_2004add.pdf

Unicodeが既存の互換用以外1文字1コードから1字形1コード認める方針変わって
例示の変更後、Unicodeに申請したんだっけ?

432 :デフォルトの名無しさん:2009/12/19(土) 13:41:42
JIS X 0213:2004 のほうが後なの?

433 :デフォルトの名無しさん:2009/12/21(月) 13:15:07
Extension B(Unicode 3.1)は2001年。
20B9Fは康煕字典ソースで53F1とはnon-cognate。

434 :デフォルトの名無しさん:2009/12/21(月) 14:44:53
他人の空似なのか。やっぱり無理筋だ。

435 :デフォルトの名無しさん:2009/12/22(火) 15:58:13
>>426
この記事、パソコンから携帯へはどういう設定で送ったんだろ。
utf-8で送信されたメールなら、携帯のベンダ側で例の文字だけ
JIS X 0208の範囲に押し込む手もあると思うけど。

436 :デフォルトの名無しさん:2009/12/22(火) 17:59:57
絵文字の場合は送信側のサーバで一括変換してるけど、
Unicode対応は機種によって違うから、サーバで変換しちゃまずいだろ。

437 :デフォルトの名無しさん:2009/12/23(水) 03:03:35
>>435
> utf-8で送信されたメールなら、携帯のベンダ側で例の文字だけ
> JIS X 0208の範囲に押し込む手もあると思うけど。

似た字に変換しちゃえって事?

438 :デフォルトの名無しさん:2009/12/23(水) 11:06:56
携帯に限って言えば、キャリア側で勝手に包摂しちゃえばいいんじゃないの
わざわざ常用漢字表の側で配慮すべきだとは思わない

439 :デフォルトの名無しさん:2009/12/23(水) 22:06:14
>>438
包摂で済むなら苦労しないし、できるんだったら第2水準を作る時点で新字旧字にそれぞれ別コードを与えない。

「常用漢字表と字体が違うYO!」 と言ってくる人が必ず出てくる。
今後>>438が「常用漢字お客様相談センター」の窓口を一手に引き受けてくれるのであれば別だが。

440 :デフォルトの名無しさん:2009/12/24(木) 20:39:55
「口匕」と「口七」は元来別字だったからややこしい。現代文では両方とも「シカる」の意味で使う。
本当に字形の差の問題だけだったら、Unicodeでは中国の字体と統合されている「将」や「直」の方が問題だろう。

441 :デフォルトの名無しさん:2009/12/25(金) 08:32:30
CJK統合の問題は言っても始まらない、というか終わっちゃう、というかw

442 :デフォルトの名無しさん:2009/12/25(金) 18:00:26
俺は生粋の日本人だけど、日本と朝鮮と越南が中国領になれば解決するアルよ。

443 :デフォルトの名無しさん:2009/12/25(金) 20:21:12
visciiを巻き込まないで

444 :デフォルトの名無しさん:2009/12/26(土) 11:49:18
今回のパブコメは募集要領でわざわざ
>今回は,「「新常用漢字表(仮称)」に関する試案」からの変更点に関連する御意見を中心に
と断っているから、out of scopeではねられるものが大量に出る予感。

445 :デフォルトの名無しさん:2009/12/29(火) 23:49:54
cnetの絵文字の話は越年か…

446 :デフォルトの名無しさん:2010/01/09(土) 23:50:29
文字コードじゃなくてフォントの話なんだけど、
「礫」をMS明朝の16ポイントで表示させると旁の「白」が「自」になるのに気づいた。

これって有名?

447 :デフォルトの名無しさん:2010/01/10(日) 02:17:32
そのくらいの省略(ヒンティングでかもしれんが)はいくらでもあるんじゃないか?


448 :デフォルトの名無しさん:2010/01/10(日) 08:06:54
いや、画数が足りないならともかく、多いんだからバグだろ。

449 :デフォルトの名無しさん:2010/01/10(日) 13:10:55
まったく、フォント作成までもが中国に丸投げかよ

450 :デフォルトの名無しさん:2010/01/10(日) 13:52:36
16以外は大きくても小さくても白だなw

451 :デフォルトの名無しさん:2010/01/10(日) 14:35:57
16ポイント埋め込みビットマップのみの問題か。
こんな名前にもポスターにも使わそうにない漢字良く気づいたな。

452 :デフォルトの名無しさん:2010/01/10(日) 15:56:11
礫は砂礫・礫岩の礫か。
あとは、東京都文京区小石川は礫川とも書く。



453 :446:2010/01/10(日) 20:23:33
みんなレスありがとう
手書き認識で別の字を書いたときに旁の変な「礫」が出てきて、
あれこんな字あったっけ? みたいな。

8ポイントの「預」が「矛頁」になるのは比較的有名だと思うんだけど、
これは最初の発見者になれたかなw

454 :デフォルトの名無しさん:2010/01/14(木) 17:02:05
文字コード界隈もついったーばやりだなぁ。

455 :デフォルトの名無しさん:2010/01/17(日) 01:05:32
Twitterといえば、Webインターフェイスからつぶやくと、
サロゲートペアはキッチリ2文字としてカウントしてくれるせいで140字打てない
Twitpicってutf-8を文字境界ではないところで切っているせいで
よく文字化けをおこしている
まあたとえサロゲートペアを1文字としてカウントしたり、utf-8を文字境界で切ったとしても
結合文字の問題もあるんだけどね。

456 :デフォルトの名無しさん:2010/01/17(日) 03:37:14
結合文字はちゃんとやろうとするとテーブルが要るから
処理を端折りたくなる気持ちは分かるけど、サロゲートはちゃんとやってほしいな。

457 :デフォルトの名無しさん:2010/01/17(日) 12:48:25
16進数で3xが0-9まで数xになる文字コードってなに?

458 :デフォルトの名無しさん:2010/01/17(日) 13:13:41
ASCII

459 :デフォルトの名無しさん:2010/01/17(日) 13:51:05
^^b

460 :デフォルトの名無しさん:2010/01/26(火) 17:07:08
当方はXP SP3でMSのJIS2004フォントを適用した環境です。

ATOK2009の「文字パレット」でフォントに「MS 明朝」を指定して漢字検索する時、
以前は一部のサロゲートペア文字も検索結果で正常表示されていたのに
今回検索したら「・・」表示になってしまってました。(例:>371の「土並」とか)
これは他のフォントに変更しても同じ

またサロゲートペア以外に「・」表示になってしまった文字も多数。(例:U+50F7の「イ葉」とか)
但しコチラは「Tahoma」や「MS Sans Serif」に変更すると表示されました。

JIS2004フォントを削除して再インストールしても直りませんでした。

この現象を解決する方法、何方かご存じでしょうか?

461 :デフォルトの名無しさん:2010/01/26(火) 19:44:57
エディタやブラウザでMS 明朝の該当グリフが表示されるかどうかを試してみて、
ATOKの問題かOSのフォント認識の問題か切り分ける。

462 :460:2010/01/27(水) 09:33:29
>461
エディタやブラウザでも「・」や「・・」で表示されるのでOSのフォント認識の問題と思われます。
念の為、IME2002に切り替えて確認しましたが同じでした。

463 :デフォルトの名無しさん:2010/01/27(水) 15:17:31
文字コードについて誤った情報が掲載されているPDFを探しています。
なかなか見つけられないので協力してください。

464 :デフォルトの名無しさん:2010/01/27(水) 15:25:21
なぜPDF?

465 :デフォルトの名無しさん:2010/01/27(水) 15:35:05
PDFと指定されたからです。
何が誤っているかも分らない分野で、明日までに提出と言われたので困り果てていました。
ここの方なら分るかと思い質問しました。

466 :デフォルトの名無しさん:2010/01/27(水) 15:51:01
>文字コードについて誤った情報が掲載されているPDF

この条件だけでいいんだったら、

1 嘘の記事をメモ帳なりワードなりで自作して
2 Bullzip PDF Printer などでPDF化

で簡単に作れるべ

467 :デフォルトの名無しさん:2010/01/27(水) 15:52:56
http://www.google.co.jp/search?q=文字コード+filetype%3Apdf
こんなかから、うそっぽいのをさがせ。

468 :デフォルトの名無しさん:2010/01/27(水) 15:55:20
あやしいのだらけだが、こいつはそうとうにあやしい。

ネット時代の必修科目、文字コードの謎をひも解く
ファイルタイプ: PDF/Adobe Acrobat
図3 ASCIIは1バイトの半角文字を扱うための文字コード体系。JISとシフトJISは2バイトで日本語を扱うために開発された。EUCは日本語版のほか、 ... 図2 大抵の文字化けは文字コードの設定を切り替えることで対処できる。IE7では「ページ」→「エ ...
pc.nikkeibp.co.jp/pc/npcs/pdf/071022/tokushu1.pdf -

469 :デフォルトの名無しさん:2010/01/27(水) 15:56:13
>466
自分で作るのも考えたんですが、
それらしいものを作る自信がなくて諦めていました。

>467
ちょっと見てきますありがとう。

470 :デフォルトの名無しさん:2010/01/27(水) 15:57:44
>468
これも見てみます。ありがとう。

471 :デフォルトの名無しさん:2010/01/27(水) 16:09:04
「漢字は2バイト」とあり、それがUnicodeの文脈で、
にもかかわらずエンコーディング方法に言及してないとかなー。

半角カナは1バイト、とかも似たような(EUC-JPだと…)


472 :デフォルトの名無しさん:2010/01/27(水) 17:17:46
そりゃnikkeibpだもん
仕方ないよ

473 :デフォルトの名無しさん:2010/01/27(水) 22:55:34
>>470
あんた赤点決定ね。

474 :デフォルトの名無しさん:2010/01/28(木) 01:59:24
>471がよくわかりません。
詳しく教えてください。

475 :デフォルトの名無しさん:2010/01/28(木) 02:10:33
ちょっとは自分で調べましたみたいな姿勢を見せないでただ質問するだけって嫌われるよ。

476 :デフォルトの名無しさん:2010/01/28(木) 03:47:31
数年後日本の開発者は文字コードの乱立を知らない世代ばかりになって
ますますソフト業界は世界から立ち遅れると思われ

477 :デフォルトの名無しさん:2010/01/28(木) 08:37:02
欧米か!

478 :デフォルトの名無しさん:2010/01/28(木) 09:44:48
>>476
オライリーのCJK本の事を思い出してしまった


479 :デフォルトの名無しさん:2010/01/28(木) 10:34:41
>>476
IMEの開発を朝鮮に丸投げしてるからなぁ

480 :デフォルトの名無しさん:2010/01/28(木) 10:40:09
ttp://www.amazon.co.jp/dp/4873111080

481 :デフォルトの名無しさん:2010/01/28(木) 11:07:29
むしろShift_JIS的発想から抜け出せないことの方が、立ち後れの原因になりかねない。
一行あたりの文字数をバイト数から算出しようとするような。

某有名国産テキストエディタが、合成文字をちゃんと表示できるようになるのはいつの事だか…

482 :デフォルトの名無しさん:2010/01/28(木) 18:19:21
固定ピッチフォントでは全角は2倍の幅という慣習も、今後どうなるんだろう?

483 :デフォルトの名無しさん:2010/01/28(木) 19:02:25
そら、「全角」は「半角」の倍の幅に決まってますがな。

484 :デフォルトの名無しさん:2010/01/31(日) 12:09:58
画面上では2倍だが、ドットプリンタの世界では全角は半角の1.5倍だったけどな

485 :デフォルトの名無しさん:2010/02/02(火) 20:53:53
Windows 7だとUnicode 5.2で追加された字のUnicodeのSMP(第1面)の文字が表示出来ず・・になってしまう。
MS-IMEやATOKの文字パレットを見るとUnicode 5.1で未定義だったSMPのコードポイントがそうなってる。
これらだけでなく第15、第16面の私用面も全部・・だった。BMPやSIP(第2面)はそうでなかった。現在文字が全く定義されてない第3〜13面はどうか知らない。
なんでこうなってしまったんだ?Vista以前では表示出来たのだが。
ちなみにUnicode 5.2の文字を含んだフォントは和田研細丸ゴシック2004ARIB(ARIB外字を含んでいる)がある。
他には古代文字などを収録しているフリーフォントがいくつかあって、中にはUnicode未定義の文字のために15面の私用面を使ってるのもあった。
これらが普及する前に早く修正パッチ出てほしいもんだ。

486 :デフォルトの名無しさん:2010/02/05(金) 01:01:27
>>462
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」
にチェック。
レジストリを直接いじる方法もあるようだけどたぶんこれが一番簡単

487 :デフォルトの名無しさん:2010/02/06(土) 00:48:23
いずれ絵文字もAdobeJapanに収録されるのかな。
AJの採集基準ってどうなってんだろ。

488 :デフォルトの名無しさん:2010/02/06(土) 15:38:32
基本的には国家規格の文字を収録してるだけだよ
ただ日本に限ってはそれだけでは使いものにならないというだけ

489 :デフォルトの名無しさん:2010/02/09(火) 23:19:10
結局、絵文字にまつわるUnicode改訂ってどうなったん?

490 :デフォルトの名無しさん:2010/02/09(火) 23:23:05
すぐに巷に流れたらメシの種がなくなるじゃねえか

491 :デフォルトの名無しさん:2010/02/09(火) 23:30:15
そか、じゃあもうちょっと待ってみる

492 :デフォルトの名無しさん:2010/02/10(水) 00:40:51
絵文字を含むAMD8は3回中2回目の投票中。後はこれに各国が意見を言って、
4月の会議で摺り合わせして終わり。
絵文字にかんしては対立点がほぼ解消されたので、もう大波乱はないんじゃないかな。

Oさんもうワントライするようだけど、実際は前回のフィードバックを
どこかの国が投票コメントで拾ってくれるかどうかが鍵だと思う。
会議に出るのはNB本体の意向を代弁する人たちだから。

493 :デフォルトの名無しさん:2010/02/10(水) 00:48:26
携帯キャリアの連中、支持を表明しただけで自分たちじゃ何にもしてないのな。


494 :デフォルトの名無しさん:2010/02/10(水) 01:04:50
ミーティングには日本の代表団もいたはずなのに
なんでこんなに影薄いんだ

495 :デフォルトの名無しさん:2010/02/10(水) 01:14:20
毛が薄いから

496 :デフォルトの名無しさん:2010/02/10(水) 11:38:26
電話屋って、ITU-T以外の規格はなべてバカにしてよい、っていう意識があるからな。

109 KB [ 2ちゃんねる 3億PV/日をささえる レンタルサーバー \877/2TB/100Mbps]

取りに行ったけどなかった。次は一時間後に取りに行くです。
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :


read.cgi ver 05.0.7.8 2008/11/13 アクチョン仮面 ★
FOX ★ DSO(Dynamic Shared Object)