もう13時か、
2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50 [PR]ガジェット ニュース[PR]  

UnicodeとUTF-8の違いは?

1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37
ビッグインディアンとかなんとかかんとか

2 :デフォルトの名無しさん:2007/04/30(月) 20:04:11
戦力の決定的差ではない

3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48
また、頭の悪そうなスレが・・・

>>1
それは魚とマグロの違いを訊ねるようなもんだ。

4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49
魚と鮪というよりは、魚と刺身の違いのような気がする。

5 :デフォルトの名無しさん:2007/04/30(月) 20:09:31
俺もわからん。
誰か詳しく説明してよ。

6 :デフォルトの名無しさん:2007/04/30(月) 20:11:24
>>5
UNICODE→魚
UTF-8→刺身

7 :デフォルトの名無しさん:2007/04/30(月) 20:14:40
Unicodeは文字の集合で、UTF-8はそれに(語弊があるが)番号を振る方法の1つ。


8 :デフォルトの名無しさん:2007/04/30(月) 20:15:39
UNICODE
- 文字集合:1種類
- 符号化方式:UTF-8, UTF-16BE, etc

9 :デフォルトの名無しさん:2007/04/30(月) 20:19:17
小学生でもわかるように!

10 :デフォルトの名無しさん:2007/04/30(月) 20:28:13
Unicode => クラスメート
UTF-8 => 身長順に並べー、名前の順に並べー、誕生日の順に並べー


11 :デフォルトの名無しさん:2007/04/30(月) 20:30:48
自分はUCSとの違いがわからん

12 :デフォルトの名無しさん:2007/04/30(月) 20:32:18
2chの絵文字の#1234とかがUTF-8なのか?

13 :デフォルトの名無しさん:2007/04/30(月) 20:32:39
Unicode:
コードポイント: JISの句点コード
UTF-7, UTF-8, UTF-16, UTF-32: Shift_JIS, ISO-2022-JP, EUC-jp

Unicode ⊃ UTF-8

14 :デフォルトの名無しさん:2007/04/30(月) 20:32:52
unicode => 国民
UTF-8 => 住基コード


15 :デフォルトの名無しさん:2007/04/30(月) 20:42:09
Unicode = { 'a', 'b', ... }
UTF8 = { utf8encode('a'), utf8encode('b'), ... }

16 :デフォルトの名無しさん:2007/04/30(月) 20:42:47
UNICODE: JIS
UTF-8: SJIS or UJIS

かな?

17 :デフォルトの名無しさん:2007/04/30(月) 20:44:05
JISてーと、ISO-2022-JPエンコーディングのことを指すのかJIS X 0201とか08
とかを指すのかはっきりしないが、後者ならそんな感じ。


18 :デフォルトの名無しさん:2007/04/30(月) 20:44:56
あるいは
UNICODE: DivX or XviD or WMV9
UTF-8: AVI or MKV or OGM or ASF

19 :デフォルトの名無しさん:2007/04/30(月) 20:51:13
>>1
そもそもUTF-16やUTF-32と違って
バイトストリームのUTF-8にはエンディアン問題はない
UTF-8のBOMはエンディアン対策ではない

>>11
UnicodeとUCSは同義といってもいいのでは

20 :デフォルトの名無しさん:2007/04/30(月) 20:53:30
UNICODEって文字セットのことなのか、
文字セット+符号化方式たち のことなのかどっち?

21 :デフォルトの名無しさん:2007/04/30(月) 20:57:06
文字それぞれにも番号は振られているが、これは日本語の文字でいうと
区点コードみたいなもんだな。


22 :デフォルトの名無しさん:2007/04/30(月) 21:00:55
UTF-8とかってのは一種の圧縮方式みたいなものだよね
前cjk漢字統合で叩かれてたのはUNICODE自体の問題?
それとも非可逆圧縮への批判?


23 :デフォルトの名無しさん:2007/04/30(月) 21:13:09
なんという他力本願なスレ・・・

24 :デフォルトの名無しさん:2007/04/30(月) 21:14:46
ていうか、こんだけグチャグチャ言われたらわかるもんも
わからんようになるだろ、普通w

25 :デフォルトの名無しさん:2007/04/30(月) 21:18:58
>22
UnicodeがCJK漢字を統合するという
非可逆圧縮を選択したことへの批判だったと記憶している。

26 :デフォルトの名無しさん:2007/04/30(月) 21:26:07
.NET2.0には文字コードを自動判別する機能があるかどうかどうなんだ

27 :デフォルトの名無しさん:2007/04/30(月) 21:29:11
文字コードスレで聞けよ・・・

28 :デフォルトの名無しさん:2007/04/30(月) 21:32:55
>>22
>UTF-8とかってのは一種の圧縮方式みたいなものだよね

全然違うから。

29 :デフォルトの名無しさん:2007/04/30(月) 21:36:55
>>11
UnicodeはUCS-4のサブセットであり、UCS-2のスーパーセット

30 :デフォルトの名無しさん:2007/05/01(火) 00:35:17
UNICODEには基盤になる文字集合が一つあって、
その文字コードを固定長で(そのまま)使うのがUCS、
可変長で(圧縮して)使うのがUTFだと思ってた俺。

しかし>>28によって否定されてしまった。
調べてもなぜ間違ってるのか分からん。

31 :デフォルトの名無しさん:2007/05/01(火) 00:46:56
>>30
可変長と圧縮を混同するな。

32 :デフォルトの名無しさん:2007/05/01(火) 00:55:36
>>31
そりゃ確かに俺らからすれば圧縮とは言えないね。
でもわざわざ可変長にする理由は第一に互換性、第二にサイズぐらいしかない気がする
とりあえず大筋では合ってたようなのでよかった。サンクス

33 :デフォルトの名無しさん:2007/05/01(火) 05:53:08
UTF-16LEを指してUnicodeと連呼しているSDKドキュメントが存在するんだが、
あいつらの傲慢さは何とかならんのか?

34 :デフォルトの名無しさん:2007/05/01(火) 07:31:56
UTFのUとは何か

35 :デフォルトの名無しさん:2007/05/01(火) 08:12:07
さいたまてれびがうつらないのですが・・・

36 :デフォルトの名無しさん:2007/05/01(火) 08:18:43
なぁ、ちょっとおしえてくんねーか?
なんでutf8の「ももんが」って文字列を
PerlのJCodeでutf8に変換しようとすると文字化けしちゃうんだ?

37 :デフォルトの名無しさん:2007/05/01(火) 09:03:46
ももんが!!

38 :デフォルトの名無しさん:2007/05/01(火) 09:12:48
>>36
utf8からutf8だと、変換してないじゃないか。

39 :デフォルトの名無しさん:2007/05/01(火) 10:00:45
Unicode: Unicode Consociumの制定した文字集合。(U+0 - U+1FFFFF)
UTF-8/16/32: Unicode Transformation Format。Unicodeの符号化方式。
 UTF-8: 外字が無いため4Byte長まで。
 UTF-16: UCS-2+サロゲートペア+バイナリ符号化。

ISO/IEC 10646: 国際文字集合規格(群、面、区、点)。制定前にUnicodeが出て来たためそのコンパチに。Unicodeの文字はこのうち0群16面まで。
UCS-4: ISO規格の31bit符号集合。規格化文字集合+外字。
UCS-2: ISO規格の16bit符号集合。基本多言語面のみ。(例:U+1234)
UTF-8/16/32: UCS Transformation Format。UCSのバイナリ符号化方式。(例:0x12 0x34)
 UTF-8: Unicodeの方と違い6Byte長まであり。

40 :デフォルトの名無しさん:2007/05/01(火) 10:19:34
メモ帳でテキストを保存するときに
UnicodeやUTF-8を指定できるが、
Unicodeで保存する
としたときは
UTF-8で保存したのかUTF-16で保存したのか
わたしたちにはわからなくないか?

41 :デフォルトの名無しさん:2007/05/01(火) 10:22:47
コンソールのfileコマンドでわかるだろ!(:D)| ̄|_

42 :デフォルトの名無しさん:2007/05/01(火) 12:07:35
>>40
Microsoft Windows では "Unicode" といえば UTF-16 のリトルエンディアンという暗黙の了解になっている。

43 :デフォルトの名無しさん:2007/05/01(火) 12:13:22
>>33
csUnicodeっていうISO-10646-UCS-2のIANA別名があって、
こいつはUTF-16コンパチだから、あながち間違いとはいえない。

44 :デフォルトの名無しさん:2007/05/01(火) 16:02:40
Visual Studio.NETのSystem.IOでテキストをつくったらとくにコード指定なしのときはUTFいくつなんだ?

45 :デフォルトの名無しさん:2007/05/01(火) 16:21:05
windowsの標準

46 :デフォルトの名無しさん:2007/05/01(火) 17:07:42
UTF-8
MSDNに書いてある。

47 :デフォルトの名無しさん:2007/05/01(火) 17:36:36
ISO-2022でいいじゃんね

48 :デフォルトの名無しさん:2007/05/01(火) 17:49:18
VB.NETでも結局はBASP21を使わないと文字コード半別できんのか?

49 :デフォルトの名無しさん:2007/05/01(火) 18:01:26
mlangつかやいいじゃん

50 :デフォルトの名無しさん:2007/05/01(火) 18:25:37
文字コードのことがイマイチよくわからん・・・・
頭こんがらがり

51 :デフォルトの名無しさん:2007/05/01(火) 18:48:26
文字コードもOSI参照モデルみたいな階層構造の概念が必要だと思うんだよな
↓みたいな感じで

表示字形(グリフ、フォント)
文字入力(物理デバイス、IME)
符号化方式
文字集合
自然言語

52 :デフォルトの名無しさん:2007/05/01(火) 19:41:11
とりあえず、M$はUTF-16をUnicodeと呼ぶのを自重すべきだな。
まるでUTF-16だけがUnicodeとしたいようだ。
SJIS(MS漢字コード)を日本語テキストの標準にしたいかのように。

53 :デフォルトの名無しさん:2007/05/01(火) 19:50:46
自然言語ってのは普段使ってる言葉な
そこで使われてる文字を集めたのが文字集合ってヤツ

英語だとラテン文字a-z,A-Zと数字、記号なんかが文字集合になるわけ
日本語だと異体字なんかの問題があって集合を作るのが難しいんだけど
(土吉/士吉とか、はしご高/くち高みたいな)
とりあえず作って使われてるのがJIS X 0208文字集合ってヤツ
いわゆるJIS第1水準、第2水準漢字ね

54 :デフォルトの名無しさん:2007/05/01(火) 19:53:30
他の国でも独自に文字集合を作ってて
それらをまとめてひとつの大きな文字集合に
しちゃおうってのがUnicodeの考え方なの

ここでいうUnicodeはUCS(Universal Character Set)と
同じと思ってもらっていい

55 :デフォルトの名無しさん:2007/05/01(火) 19:58:06
その文字集合を実際にコンピュータ上のゼロイチで
対応させる方法のことを符号化方式っていうの

JIS X 0208文字集合を符号化する主な方法として
EUC-JP、ShiftJIS、ISO-2022-JP(JIS)
っていう3つがあって文字化けとかの問題が出てくるんだけどね

56 :デフォルトの名無しさん:2007/05/01(火) 20:07:29
ASCIIなんかだと文字集合と符号化方式が明確に区別されてなくて
規格として「この文字はこのゼロイチの組合せ」ってのが決められてたりして
そこらへんが文字集合と符号化方式を混乱する一因ではあるんだけど

UTF-8ってのはUCSを符号化する方法のひとつっていうだけ
それ以上でもそれ以下でもない

じゃあ、何が混乱の元かっていうと
Unicodeって言葉がUCS(文字集合)だけを指す場合と
符号化方式まで含めて使われる場合があるのだな
区別が付いてる人はいいんだけど、区別が付いてない人が
書いたり読んだりしてるとエスパー助けて状態にw

57 :デフォルトの名無しさん:2007/05/01(火) 20:14:21
UCSという規格の存在を知らず、
UCSという言葉を単にUCS-2やUCS-4などといった符号化形式の
総称としか思っていない奴いるだろ。

58 :デフォルトの名無しさん:2007/05/01(火) 20:32:56
なるへそ。
そういうことか。

Unicodeが単に世界中の文字を集めたもので、その1文字1文字にゼロとイチ
の組み合わせ対応させたものが、UTF-8と。

なんかちょっとわかったよ。

59 :デフォルトの名無しさん:2007/05/01(火) 20:43:00
ASP.NETのWebconfigファイルはUTF-8なんだからできればなにもかもUTF-8で統一してもらいたいんだが。
アラビア語とかを考えてUTF-16とかにする必要があるんだろうか


60 :デフォルトの名無しさん:2007/05/01(火) 20:58:23
Unicodeが16ビット固定長だった頃に書かれたソフトウェアを使うためということが
UTF-16の最大の存在理由だと思う。

個人的には大半の仮名漢字が2オクテットで収まるUTF-16はそんなに嫌いでない。
ASCIIの文字が2バイトになることと、プログラムで扱うときに
サロゲートペアを考慮しなければならないこと、は悩ましいけど。

61 :デフォルトの名無しさん:2007/05/01(火) 21:19:18
どうせ互換性なくなるならASCIIの制御文字から設計し直せばいいのにな

62 :デフォルトの名無しさん:2007/05/01(火) 21:29:40
このスレは文字コードスレの内容がサッパリわからない
アフォの俺には非常に助かる

63 :デフォルトの名無しさん:2007/05/01(火) 21:40:58
なるほど。すごく良く分かった。
エロい人に感謝。

64 :デフォルトの名無しさん:2007/05/01(火) 21:51:36
それじゃぁ、このスレは目的を果たしたということで埋め?

65 :デフォルトの名無しさん:2007/05/01(火) 21:52:18
日本で使うコードポイントはどの辺でしょうか?
http://www.ssec.wisc.edu/~tomw/java/unicode.html

66 :デフォルトの名無しさん:2007/05/01(火) 21:54:29
ブラウザの実装も大変みたいだね
http://openmya.hacker.jp/hasegawa/public/20061209/momiji.html

67 :デフォルトの名無しさん:2007/05/01(火) 21:58:43
>>39
UTFって、2種類あるんだ。Windowsのはどっちなんだろ?
というかそもそも、UCS-?とUTF-?の違いが良く分からんが。

68 :デフォルトの名無しさん:2007/05/01(火) 21:59:22
Basic LatinがASCIIの範囲。
CJKなんたらと付くところが漢字関連。
あとHiragana、Katakanaは当然だな。
Halfwidth and Fullwidth Formsが半角カタカナや全角アルファベット。

漏れがあるかも知れないがだいたいこんなとこだろう。

将来的にはHigh/Low Surrogatesに入る文字もあるのかな。(もう入ってる?)


69 :デフォルトの名無しさん:2007/05/01(火) 22:13:17
UCS-2⊂UCS-4⊂世界の文字
UTF-8∈( UCS-2→バイト列(1〜4?バイト) )
UTF-16∈( (UCS-2→バイト列(2バイト) ∩ (UCS-4-UCS-2→バイト列(4バイト)) )

こうかな…?

70 :デフォルトの名無しさん:2007/05/01(火) 22:22:38
UCSは集合でUTFは関数
集合の元に関数を適用するとゼロイチが出てくる

71 :デフォルトの名無しさん:2007/05/01(火) 22:30:20
>>65
国を意識しないで使えるのがUnicodeのメリットで
全ての国で全てのコードポイントが使える

そもそも日本語だけを使いたいのであれば
Unicodeを使う意味がない
理想論だけど

72 :デフォルトの名無しさん:2007/05/01(火) 22:30:37
で、実践的に、ネットからダウンロードしたのをUTF-8で保存するとして
ネットのドキュメントのいろいろな文字コードを知るにはどうするんだ?

73 :デフォルトの名無しさん:2007/05/01(火) 22:36:53
(1)ソース表示→charset=???の部分で判断
(2)いろんなエンコードで開いてみて読めたのが正解

74 :デフォルトの名無しさん:2007/05/01(火) 22:37:06
>>71
>Unicodeを使う意味がない

2バイトコードの問題から開放されるだけでもすごく意味があるぞ。

75 :デフォルトの名無しさん:2007/05/01(火) 22:44:55
>>67
Unicodeコンソーシアムが作った文字集合がUnicode。
ISO 10646で定義された文字集合がUCS。
両者は、互換になるように働きかけあっているので、今のところ同じ文字集合と見なして問題ない。

一時期はUnicodeを符号化するのがUTF-?、UCSを符号化するのがUCS-?だったと俺は思うが、
今はISO 10646にUTF-8/16も収録されているらしい。
UTF-8/16の正式名称はUnicodeとUTFで違うが、実際の符号化の方法は同じで、
基の文字集合も上に書いたとおり同じだからどちらのUTF-8/16も実用上基本的に違いはない。

76 :デフォルトの名無しさん:2007/05/01(火) 22:48:04
UCS-4は、32ビット固定長の内31ビット使用し、UCSの全ての文字を符号化できる。
UCS-2は、16ビット固定長(16ビット使用)で、UCSのうち、BMP(基本多言語面)だけしか符号化できない。
UTF-32は、32ビット固定長の内21ビット使用し、Unicodeの全ての文字を符号化できる。
UTF-16は、16ビット/32ビット(サロゲートペア)の可変長で、Unicodeの全ての文字を符号化できる。
UnicodeのUTF-8は、8ビット単位、1-4オクテットの可変長で、Unicodeの全ての文字を符号化できる。
UCSのUTF-8は、8ビット単位、1-6オクテットの可変長で、UCSの全ての文字を符号化できる。

Unicodeは、UTF-16で全ての文字を符号化できることを念頭においているが、
UCSは、UCS-4で全ての文字を符号化できることを念頭においている。

77 :デフォルトの名無しさん:2007/05/01(火) 22:48:19
>>74
Unicodeでも多バイト問題は付いて回るし
EUC-JPとかISO-2022-JPでいいんじゃね?

78 :デフォルトの名無しさん:2007/05/01(火) 22:52:58
>>69
これくらいすっきりさせろ
UCS-4 = UCSのUTF-8
UTF-32 = UTF-16 = UnicodeのUTF-8
UCS-2 ⊆ UTF-32 ⊆ UCS-4
(そもそもUnicode ⊆ UCS)

79 :デフォルトの名無しさん:2007/05/01(火) 22:54:52
ISO-2022-JPはステートフルなので扱うのが大変。
UTF-8はEUC-JPより多くの文字が扱える。
Shift_JISはYENとかで困るから除外。
XMLのデフォルトエンコーディングはUTF-8。


80 :デフォルトの名無しさん:2007/05/01(火) 23:05:23
JISX0213(ニアリイコールVistaの文字セット)でサロゲートペアって
ハマりそうだよな。

string s="○";
assert( s.length==1 );

これが成り立たない場合があるっていうのも詐欺みたいな。

81 :デフォルトの名無しさん:2007/05/01(火) 23:08:04
1区当たり94点しか使わないASCII絶対主義が狂ってると思う
コードポイントの5/7が使われないのはもったいなすぎ

82 :デフォルトの名無しさん:2007/05/01(火) 23:17:25
>>76
なるほど・・・だいぶ間違ってたなぁ。こうなるのかな?
BMP(16bit)⊂Unicode(21bit)⊂UCS(31bit)⊂世界の文字
UCS-4∈( UCS→(32bit) )
UCS-2∈( BMP→(16bit) )
(UCS)UTF-8∈( UCS→(8〜48bit) )
(Unicode)UTF-8∈( Unicode→(8〜32bit) )
UTF-16∈( BMP→(16bit) ∩ Unicode-BMP→(32bit) )
UTF-32∈( Unicode→(32bit) )

>>78
俺はずっと文字集合とエンコーディングがごっちゃになってたから
あんまり省略すると不安だったもんで

83 :デフォルトの名無しさん:2007/05/01(火) 23:18:50
>>80
「が」とかなら判るけど、○も文字的に2文字になるケースってあるの?
サロゲートペアだから2だとかでは、バイト長だから4という思想から
変わってないような。文字としてなら1以外ありえないと思うので、
そのassertが不成立ならstringクラスのバグ(か、lengthのバグ仕様)なんでは?


84 :デフォルトの名無しさん:2007/05/01(火) 23:24:41
任意の文字って意味じゃね>"○"

85 :デフォルトの名無しさん:2007/05/02(水) 00:10:36
あ゛、なるほど。でも任意の文字っていっても実装依存で
なるわけじゃなくて、そうなってもおかしくない文字(合字とか)で
なるだけじゃないの?言語的な文字数ではなくて内部的に確保した
記憶スロットの数を返すようなlengthはいくらなんでもバグだろう。

86 :デフォルトの名無しさん:2007/05/02(水) 00:33:38
>>83
いや、サロゲートペアだから2になるんだわ。
とりあえず.NETはそうなる。

http://msdn2.microsoft.com/ja-jp/library/system.string.length(VS.80).aspx
> Length プロパティは、このインスタンス内の Char オブジェクトの数を返します。Unicode 文字の数ではありません。

Javaもそうなるみたいだけど。

Java
http://java.sun.com/j2se/1.5.0/ja/docs/ja/api/java/lang/String.html#length()
> この文字列の長さを返します。長さは文字列内の 16 ビット Unicode 文字の数に等しくなります。

JavaScriptも多分?

87 :デフォルトの名無しさん:2007/05/02(水) 01:48:47
>>86
げーっ、そうなんだ。
「16ビットUnicode文字」の数なんて何の意味もないのにな。
「言語的な文字」の数かどうかだけが問題で、それ以外は
バイト数を返すのと同じこと(=同じ問題を抱える)なのに。

88 :デフォルトの名無しさん:2007/05/02(水) 02:08:02
しかし、実際サロゲートペアの
文字なんかほとんど使われないわけで。

それなのにそれを考慮して処理速度を大幅に落とす方が俺は困る。

89 :デフォルトの名無しさん:2007/05/02(水) 02:09:58
Javaは仕様としてサロゲートペアを
そもそもサポートしないと決められてるはず。

90 :デフォルトの名無しさん:2007/05/02(水) 03:25:03
>>89
最近のJavaはちょっとサポートしている。
String.codePointCount() とか、Character.codePoint*() とか。



91 :デフォルトの名無しさん:2007/05/02(水) 05:56:27
>>87
プログラム組む人は、バイト数が欲しい
(書面の)文を書く人は、文字数が欲しい


strcatとかの標準関数が全滅するUTF-16なんて誰が考えたんだろな?
しかも、MSは標準にするし…

92 :デフォルトの名無しさん:2007/05/02(水) 09:06:46
意味的にはもちろん文字数を返すのが理想なんだけど・・・
そもそもJavaなんて、stringクラス作った時はサロゲートペアなんて無い時代じゃないの

93 :デフォルトの名無しさん:2007/05/02(水) 09:23:29
>>68
有り難う御座います、結構飛びますね
>>71
ゲームで使うライブラリが使うコードポイントを指定して
テクスチャに書くので決める必要があるからです
海外のフォントが使えなきゃ線画ができませんし

94 :デフォルトの名無しさん:2007/05/02(水) 10:05:19
>>91
バイト数を気にしてた頃はJIS X 0201カナも普通に使われてたから
SJISなんつー中途半端なモンが重宝されてたんだよな

95 :デフォルトの名無しさん:2007/05/02(水) 10:35:00
>>87
.NETの場合、文字数はSystem.Globalization.StringInfo.LengthInTextElementで得られる。
ほかにもStringInfoには、サロゲートペアを考慮して文字単位で操作するメソッドがいくつかある。

>>91
C89の時点で既にwchar_tはあった。
wcscpyなどの関数が入ったのはC95だった気がするが。

そのwchar_tは、今のWindowsだとUTF-16だが、
そもそもwchar_tことC/C++のワイド文字は固定長で処理することを志向していたはずで、
本来のwchar_tの意義からすればUTF-16は良くない罠。

もしもUnicodeが初めから32ビットになっていれば、と思う。

96 :デフォルトの名無しさん:2007/05/02(水) 10:37:02
やべえええ
話についていけない
というか、文字コードの変換は出来るけど 実際の詳しい部分知らない俺はヘタレ・・・

97 :デフォルトの名無しさん:2007/05/02(水) 10:44:11
16bitで足りないのはすぐに判ったろうけど、似た文字はまとめちゃえば入るだろと思ったんだろな
でも、それじゃ納得しない人が出てくるのは当然。

24bitあれば足りたろうから24bitで定義しておけば最善だったかもな

それにしても \ の扱いが醜い

98 :デフォルトの名無しさん:2007/05/02(水) 10:54:06
7bitで足りてた人間が考え始めたコトだからw

JIS X 0201のGRはISO646ではあるけどASCIIではないからね
バイナリ的に区別付かないからフォント変えれば同じだけど

ASCIIにスラッシュとバックスラッシュが採用されたのは
当時のプログラム言語で使われてた論理記号の∧と∨を表すためらしい

99 :デフォルトの名無しさん:2007/05/02(水) 11:11:56
歴史的な経緯はこのページが参考になる
ttp://www.horagai.com/www/moji/code4.htm


100 :デフォルトの名無しさん:2007/05/02(水) 11:18:53
んじゃ、文字数とかバイト数とかのお話の説明なぞ

UTF-16っていうので16bitで全部の文字を表そうと思ってたのね
でも実際に作り始めたら16bitじゃ全然足りなかったから
その分は16bitをふたつ使って32bitで表しますよっていうコトにしたの
それがサロゲートペアって呼ばれてるモノね(ふたつ組だからペア)

そんなわけで、UTF-16は基本的に16bitで一文字なんだけど
例外的にサロゲートペアだけ32bitで一文字っていう
ヘンテコリンな規格になっちゃったわけ

サロゲートペアの処理がちゃんとされてないプログラムだと
16bitなら一文字、32bitなら二文字っていう風に
機械的に文字数を判断しちゃって困るねっていうこと

101 :デフォルトの名無しさん:2007/05/02(水) 11:27:33
言ってみればサロゲートペア非対応のプログラムでサロゲートペアを含む文字列を扱おうということは、
マルチバイト文字列非対応のプログラムでマルチバイト文字列を扱おうとするのと同じこと。
まあShift_JISのような駄目文字問題が生まれないのはましだけど。

102 :デフォルトの名無しさん:2007/05/02(水) 11:28:30
足りない領域に文字を突っ込むという点では
JIS X 0201のカタカナ集合に通じるモノがあるかも
(いわゆる半角カナのコトね)

自然な感覚だと濁点・半濁点が付いてるのも一文字だし
付いてなくても同様に一文字だと思うんだけど、
文字入れる場所がないから濁点・半濁点付き文字は
例外的に8bitふたつで表現してねっていう

「こんにちは」と「こんばんは」
一般的な感覚としては両方とも五文字だけど
8bitカタカナの世界では
「コンニチハ」は五文字で「コンバンハ」は六文字になる

103 :デフォルトの名無しさん:2007/05/02(水) 11:29:18
UTF-16で
1文字16bitだとして1文字32bitのものもあるってことは判った
流石に混在はしないの?



104 :デフォルトの名無しさん:2007/05/02(水) 11:41:16
>>103
D800-DB7FとDB80-DBFFが上位サロゲート、DC00-DFFFが下位サロゲートの領域になっていて、
任意のUTF-16 1バイト(= 2オクテット)を取り出しても、
それがサロゲートでないか、上位サロゲートか、下位サロゲートかは区別が付く。

駄目文字の問題が起こらないという点において、ASCIIとの対比で言えばShift_JISよりもEUC-JPっぽいという感じ。
EUCは、あるコードがマルチバイトのどこになるかの区別が付かなかった気がするが。

105 :デフォルトの名無しさん:2007/05/02(水) 11:44:46
>>104
解説サンクス
なるほど なんかUTF-16が判ってきた
でもぶっちゃけ存在は知ってるけど使ったことがない俺がいる

106 :デフォルトの名無しさん:2007/05/02(水) 11:50:43
文字コードなんて本来はユーザが意識するようなものじゃないからなぁ
ユーザが意識して扱わないと問題が起きる設計なんてのは
IT業界じゃなきゃ欠陥商品としてリコール対象だろw

107 :デフォルトの名無しさん:2007/05/02(水) 12:30:22
つまりUTF-16だとサロゲートペアで表す対象になる文字の中で、
俺が有名そうだと思うのは、吉野家の「土吉」(上部が土になっている)U+20BB7 𠮷。
メイリオなんかだとグリフを持っているので表示できる。

108 :デフォルトの名無しさん:2007/05/02(水) 12:44:27
DOMStringの長さはUTF-16での符号単位数ってことになってるんだよな。
これ決めた奴、死ぬべきだと思うわ。

109 :デフォルトの名無しさん:2007/05/02(水) 16:42:11
>>108
W3CでDOMを規格化するときには、もうJavaScriptもJavaも16bit単位ベー
スの文字列処理になってしまっていたので、仕方なくそれらに合わせた
んだと記憶してます。



110 :デフォルトの名無しさん:2007/05/02(水) 20:02:03
7bit文字の場合
0xxx xxxx
8-11bit
110x xxxx 10xx xxxx
11-16bit
1110 xxxx 10xx xxxx 10xx xxxx

unicodeの部分がxxxx

111 :デフォルトの名無しさん:2007/05/02(水) 21:38:28
1バイトだけ見た場合、

0xxx xxxxならそのバイトだけで1文字
1xxx xxxxなら
-- 10xx xxxxなら多バイト文字の2バイト目以降(先頭は遡って11xxなバイト)
-- 11xx xxxxなら多バイト文字の先頭バイト
---- 110x xxxxなら2バイト文字の先頭バイト
---- 111x xxxxなら3バイト文字の先頭バイト

と判別できるわけだな。


112 :デフォルトの名無しさん:2007/05/02(水) 21:57:31
>>110-111はUTF-8の場合な

113 :デフォルトの名無しさん:2007/05/03(木) 06:06:02
>>112
なにが言いたいのかわからんが、
UTF-8はstr系の標準関数が、ほぼそのまま使えるから大好きだぞ。
ASCIIの前半文字との比較だって、何の躊躇もいらない。
str系に限らず、UTF-8のシステムならfopen等までそのままってのはでかい。
w系使えばいいってのは何かの冗談にしか聞こえない。
ま、UTF-16は、何も考えず0x00を織り込んだのが、糞仕様ってことだ。

114 :デフォルトの名無しさん:2007/05/03(木) 06:28:52
>>100
根本的に認識が間違ってる。
Unicodeの文字表現は元々複数のcode pointを組合わせた可変長
UTF-16でサロゲートが無くても2 byte毎に分割してはだめだし、1文字の長さは2
byte以上の可変長としか言えない。
文字単位に処理したかったらcode pointではなく、grapheme clusterが処理単位
code pointは文字の構成要素であって文字ではない。

115 :デフォルトの名無しさん:2007/05/03(木) 10:21:11
そこでISO/IEC 10646の実装水準1ですよ(もうすぐ廃止されるけど)

116 :デフォルトの名無しさん:2007/05/03(木) 11:31:18
>>113
世の主流言語がPascalとかBasicだったら今頃はUTF-16マンセーの時代だったのかもな。


117 :デフォルトの名無しさん:2007/05/03(木) 11:43:25
なんでPascalやBasicだったらUTF 16マンセーなの?

というか、現代は既にUTF16マンセーだろ?

118 :デフォルトの名無しさん:2007/05/03(木) 11:48:34
どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの?
16bitに無理にしたかった弊害がどこまでも付いて回る
今なら24bitなり32bitなりのコードで何の問題もなかった。
ほんの5年待てばよかったのにね。

119 :デフォルトの名無しさん:2007/05/03(木) 12:16:54
何言ってるんだろね。こいつは。

>どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの?
文字コードから言語を選択する翻訳ソフトってアホだろ。
自動判定するとしても、使われている文字の種別で判定するだろ。

>16bitに無理にしたかった弊害がどこまでも付いて回る
一文目と文章が繋がってなく唐突で、
何が言いたいのか、根拠は何か、さっぱりわからん。

>今なら24bitなり32bitなりのコードで何の問題もなかった。
24bitは別の問題があるし。

>ほんの5年待てばよかったのにね。
「何を」「どの時点から」5年待てばよかったのかさっぱりわからんな。

120 :デフォルトの名無しさん:2007/05/03(木) 12:20:56
>使われている文字の種別で判定するだろ

ってどうやるの?

121 :デフォルトの名無しさん:2007/05/03(木) 12:25:07
>>119
>>99 の話じゃない?

バベル倒壊
・・・
 もう一つ、問題なのは、言語指定の仕組を文字コードレベルから排除してしまったことです。
ISO 2022や DIS 10646 1.0では、コードを見るだけで、それがどこの国の文字かを識別することができます。
それはアルファベットの「a」が、英語領域、フランス語領域、ドイツ語領域等々に重複して登録してあるから
なのですが、そんなことをしていたら16bit単一平面に全世界の文字を詰めこむことはできません。
言語指定などは必要なく、それよりも16bit単一平面におさめる方がメリットがある、というのが当時の
Unicodeの考え方だったのです。

122 :デフォルトの名無しさん:2007/05/03(木) 12:50:46
Unicodeって多言語を扱う一部の人のためのものではないの?
自国語だけで足りてる人にも使わせようとしてるのはなぜ?

123 :デフォルトの名無しさん:2007/05/03(木) 12:55:36
>>120
asciiしか使われて無いなら英語とか。
文字コード判別より簡単だろ。

>>122
アプリの多言語化は一部の人だけの問題じゃないだろ。

124 :デフォルトの名無しさん:2007/05/03(木) 13:11:52
>>123
ウニコードの話してるんだろ? なんでasciiの話が出るんだ?
EUC-JP なら日本語と判るのに
ウニコードだと基本ラテンが続いてるだけじゃどこの言葉か判らんだろ?


125 :デフォルトの名無しさん:2007/05/03(木) 13:15:17
> アプリの多言語化は一部の人だけの問題じゃないだろ。

そう。一部の人だけの問題じゃないのに、一部、
特にM$とシリコンバレーが利益率を上げる為に必要と突っ走ったのが

126 :デフォルトの名無しさん:2007/05/03(木) 13:16:42
何語かを考えないで全て等しく文字として扱うための仕組みがUnicodeだろ
どこの国の文字かはコードポイントで判断すればいいだけ

127 :デフォルトの名無しさん:2007/05/03(木) 13:35:36
そのコードポイントでどう判断するんだ?

128 :デフォルトの名無しさん:2007/05/03(木) 13:40:50
JIS X 0208でもAとΑとАはコードポイントで何文字か区別つくっしょ

129 :デフォルトの名無しさん:2007/05/03(木) 13:42:09
>>124
>ウニコードの話してるんだろ? なんでasciiの話が出るんだ?
Unicodeの話だろ?
ascii範囲だけが多く使われていたらだよ。わかれよ。
Πが使われていたらロシアとかだよ。わかれよ。

130 :デフォルトの名無しさん:2007/05/03(木) 13:48:30
ascii ってのは 基本ラテン文字の事だろ?
http://code.cside.com/3rdpage/jp/utf-8/Bacic_Latin.html

だったら、どうしてコレだけで英語だとわかるんだ?

131 :デフォルトの名無しさん:2007/05/03(木) 14:02:01
完全に分かる分けないだろ。
後は単語で判別だわな。

132 :デフォルトの名無しさん:2007/05/03(木) 14:02:25
>>117
Pascal string と C string。

133 :デフォルトの名無しさん:2007/05/03(木) 14:09:18
>>132
Pascal stringって、文字列の先頭に文字の長さが格納されてるってもんじゃないの?

なんでPascal stringだとUTF-16マンセーになるか、全然説明になってないよ。

134 :デフォルトの名無しさん:2007/05/03(木) 14:09:49
標準関数自体が今となっては問題の種な訳だが。

strsafe.h で追加された文字列操作関数について
http://ir9.jp/prog/ayu/strsafe.htm

135 :デフォルトの名無しさん:2007/05/03(木) 14:13:23
kono bunshou ha nihon-go desu.

136 :デフォルトの名無しさん:2007/05/03(木) 14:53:41
>>124
EUC-JPの半角英数だから日本語と決めつける方がどうかしてる
コメントに日本語が使われてるC言語のソースの単語は全部日本語か?
そもそもISO-8859-1の時点ですでに欧州の文字統一しまくりなわけだが?

137 :デフォルトの名無しさん:2007/05/03(木) 15:11:27
>>134
バッファオーバーフローは、古い関数だからおこるの? 違うだろ。

なんであの会社は作り直しを奨励するようなことをやりたがるの?
仕事を増やすためじゃないの?

138 :デフォルトの名無しさん:2007/05/03(木) 15:24:04
このスレと文字コード総合スレの違いは?

139 :デフォルトの名無しさん:2007/05/03(木) 15:29:19
>>137
古い関数だと間違いやすく、新しい関数だと間違えづらいだろ?あってるだろ。

>なんであの会社は作り直しを奨励するようなことをやりたがるの?
古いC関数は使わないってのはもう常識なのに…
お前何十年と情報から隔絶されてたんだ…

>仕事を増やすためじゃないの?
逆逆。古い関数使うお前のようなバカの尻拭い仕事を減らすため。

140 :デフォルトの名無しさん:2007/05/03(木) 15:37:53
>>139
>古い関数だと間違いやすく、新しい関数だと間違えづらいだろ?あってるだろ。
何の話をしてるのかね? 関数名を間違えるのかね?
「間違いが起こりやすく」だろ? 日本語でおk。

>古いC関数は使わないってのはもう常識なのに…
常識なんつーのは、所詮、てめーの知識でしかねーんだよ。
軽々しく常識なんて単語使うな。
お前は、動いているプログラムを変更するが大好きなのか?
それこそ、お前のようなバカの尻拭い仕事をさせられるぜ。

141 :デフォルトの名無しさん:2007/05/03(木) 16:04:49
>>133
nullターミネートじゃないからUTF-16で間に0x00が入っててもそのまんま
扱えるってことじゃないの?


142 :デフォルトの名無しさん:2007/05/03(木) 17:09:13
>>140
バカかお前。動いているプログラムを変更しろなんてダレが言った?


これから間違えにくい関数を用意したら、
>なんであの会社は作り直しを奨励するようなことをやりたがるの?
>仕事を増やすためじゃないの?
こんなバカなこと言うアホは死んでね^^


>何の話をしてるのかね? 関数名を間違えるのかね?
はぁ?お前の脳内では「関数名を間違える」としか補完できないの?
「使い方を間違える」とかあるだろ。ホントバカだねお前w


「「使い方を間違える」はおかしい」とか言い出したらバカ確定なw
バッファをオーバーするような「使い方は」「おかしい」から。

143 :デフォルトの名無しさん:2007/05/03(木) 17:24:43
すいません、もうちょっと高度な話題でケンカしてもらえますか

144 :デフォルトの名無しさん:2007/05/03(木) 17:33:42
ハンドアセンブル最強

145 :デフォルトの名無しさん:2007/05/03(木) 18:04:08
理由を言わないといけないわけだが・・・?最強だけ言われても納得するのはどんだけ・・・・

146 :デフォルトの名無しさん:2007/05/03(木) 18:12:03
諦めろ。 叫んだ方の勝ちだ 

147 :デフォルトの名無しさん:2007/05/03(木) 19:43:27
>>142
>バカかお前。動いているプログラムを変更しろなんてダレが言った?
…作り直しを推奨する…。作り直し。新規の物に作り直しとは言わない。

>これから間違えにくい関数を用意したら、
用意しても全く構わないが、
#define等で旧式と同じようにも使えるようにするもんだろ。
それをしないから文句言ってんだ。

>「使い方を間違える」とかあるだろ。
予想も出来なかったわ。ま「使い方を間違える」なんて考える馬鹿が、あのs付きを有り難がるわけだ。
しかも、デフォルト設定。
M$も、オーバーフローも考慮できない馬鹿は、放置すりゃいいのに。


148 :デフォルトの名無しさん:2007/05/03(木) 20:10:56
放置して叩かれるのはWindowsですから。

149 :デフォルトの名無しさん:2007/05/03(木) 23:21:06
>>147
http://msdn2.microsoft.com/ja-jp/library/ms175759(VS.80).aspx
Visual C++ 2005の場合では、常に使える訳ではないが、
従来の関数がそのままセキュリティ強化版の関数呼出になるようにできる
_CRT_SECURE_CPP_OVERLOAD_STANDARD_NAMESというマクロがある。

もっとも、C++限定なので、>>134のページと同じく、
そもそもC++ならクラスでカプセル化しろよということになるのだが。

150 :デフォルトの名無しさん:2007/05/04(金) 00:11:02
>>124
>EUC-JP なら日本語と判るのに
確かにEUC-JPなら日本語だけど、その前に
あるバイナリ列がEUC-JPであるとどうやって判断するんだ?
ISO-8859やEUCであることはわかっても
どこの国のかは単純には判断できないだろ

151 :デフォルトの名無しさん:2007/05/04(金) 10:34:29
>>129は世界には言語が5つくらいしかないとでも思ってんのか?
例えば、英語とインドネシア語はどうやって判別するんだ?w 統計的手法とか言うなよ。お前の発言と矛盾するからな。
ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの?

152 :デフォルトの名無しさん:2007/05/04(金) 11:00:39
っ地球上の3人に1人はちうごく人

153 :デフォルトの名無しさん:2007/05/04(金) 11:34:10
インドも恐ろしい。下手すると、世界の現行文字の3分の1くらいはインド1国で占めかねない。

154 :デフォルトの名無しさん:2007/05/04(金) 12:52:20
お前ら言語タグ使えよ。

155 :デフォルトの名無しさん:2007/05/04(金) 13:33:44
> ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの?
それはEUC-JPでも全く同じように問題なわけで
文字コードで言語判別しようとするのがそもそもの間違い

156 :デフォルトの名無しさん:2007/05/04(金) 13:58:05
「日本語をアルファベットで表記する」なんていうこともあるし、
言語とスクリプト(日本語では「用字」だっけ?)も分けて考えないといかん。


157 :デフォルトの名無しさん:2007/05/04(金) 14:02:25
yorosikuと夜露死苦と紐育と上海はそれぞれ何人の何語の何文字なのかというやつだな。

158 :デフォルトの名無しさん:2007/05/04(金) 17:33:09
This site is Japanese only.
と英語で書いてある日本語サイトとはこれいかに

159 :デフォルトの名無しさん:2007/05/04(金) 17:58:11
Sorry Japanese onlyとか

160 :デフォルトの名無しさん:2007/05/04(金) 18:11:29
哀れな日本人のみ利用可能


161 :デフォルトの名無しさん:2007/05/04(金) 18:19:31
しかも全角

162 :デフォルトの名無しさん:2007/05/04(金) 20:10:22
たまには縦倍角・横倍角・4倍角も思い出してあげて

163 :デフォルトの名無しさん:2007/05/04(金) 21:08:28
フォントの拡大縮小が自由にできなかった時代の遺物ですね
テラナツカシス

164 :デフォルトの名無しさん:2007/05/04(金) 21:11:07
半角全角もあぼーんしてくれ

165 :デフォルトの名無しさん:2007/05/04(金) 21:16:01
半角カナは組み込みでまだ使ってます
Unicode?なにそれ?

炊飯器で使われるようになったらUnicode勝利宣言してもいいかな

166 :デフォルトの名無しさん:2007/05/04(金) 22:05:58
そこに全角文字、マルチバイト文字はあるのか?

167 :デフォルトの名無しさん:2007/05/04(金) 23:38:55
笑園漫畫大王

168 :デフォルトの名無しさん:2007/05/05(土) 00:05:38
This Home Page is Link Free !

169 :デフォルトの名無しさん:2007/05/05(土) 09:05:28
This Home Page is Link GPL!

170 :デフォルトの名無しさん:2007/05/05(土) 11:53:34
This Home Page is Open Source.

171 :デフォルトの名無しさん:2007/05/13(日) 17:05:06
「私のために争わないで」文字コードのUTF8さん、自殺 : bogusnews
http://bogusne.ws/article/41580267.html

クソワロタ

172 :デフォルトの名無しさん:2007/05/13(日) 17:18:03
ネタにマジレスするのもアレだがUTF8とCP932の年齢がおかしくないか?

173 :デフォルトの名無しさん:2007/05/17(木) 13:33:45
アスキーとアンジーの違いは?

174 :デフォルトの名無しさん:2007/05/17(木) 13:49:36
>>173
JIS と JIS X 0201 の違いを聞いてるようなもんかな

175 :デフォルトの名無しさん:2007/05/17(木) 14:16:28


176 :デフォルトの名無しさん:2007/05/17(木) 14:29:07
UTF-8

UTF8

どっちが正しい?

177 :デフォルトの名無しさん:2007/05/17(木) 16:40:25
前者

178 :デフォルトの名無しさん:2007/05/17(木) 19:01:44
どっちも正しい

179 :デフォルトの名無しさん:2007/05/17(木) 19:18:30
>>174
JISじゃなくてJSAだろ。

180 :デフォルトの名無しさん:2007/05/17(木) 19:42:29
>>176
MIME charset名としては前者

181 :デフォルトの名無しさん:2007/05/17(木) 19:49:39
ISO/IEC 10646の表記も、Unicode Bookの表記も前者。

182 :デフォルトの名無しさん:2007/05/19(土) 05:55:00
>>177-181
沢山回答頂きありがとうございます
MySQLを使っていてデフォルトを
Latin1からUTF8に変えたんですが
こいつはUTF-8じゃなくてUTF8と
書かないといけないみたいで
なんで2種類あるのかなぁと


183 :デフォルトの名無しさん:2007/05/19(土) 07:43:53
ハイフンはトークンの区切りになるからでしょ。

184 :デフォルトの名無しさん:2007/05/29(火) 20:09:42
シフトジスは shift-jis
だけど
ジスは iso-2022-jp

こういったので迷うのは俺だけ?

185 :デフォルトの名無しさん:2007/05/29(火) 20:29:25
>>184
kwsk

186 :デフォルトの名無しさん:2007/05/29(火) 20:47:39
http://e-words.jp/w/Shift20JISE382B3E383BCE38389.html
http://e-words.jp/w/ISO-2022-JP.html

.NETのエンコードの話なんだけど、ジスコードの規格っていろいろあって、
iso-2022-jp 日本語 (JIS)
csISO2022JP 日本語 (JIS 1 バイト カタカナ可)
iso-2022-jp 日本語 (JIS 1 バイト カタカナ可 - SO/SI)
迷うよな

187 :デフォルトの名無しさん:2007/05/30(水) 00:17:09
いわゆるシフトJISだってShift_JIS, Shift_JIS-2004, CP932 (Windows-31J)と種類豊富
大体CP932以外使わないけどな

188 :デフォルトの名無しさん:2007/05/30(水) 00:20:07
WEBとかエンコードの柵が強いからいやだなぁ・・・
もう慣れたけど、うっかりで文字が化けたりする敏感なの何とかしてほしいな

189 :デフォルトの名無しさん:2007/05/30(水) 00:33:06
Unicode以外使ったら罰金。

190 :デフォルトの名無しさん:2007/05/30(水) 00:38:27
>>189
じゃぁ、まずシフトJISで書き込みを行った >>189 が率先して
UNICODEコンソーシアムに罰金を払ってください。

191 :デフォルトの名無しさん:2007/05/30(水) 02:45:57
俺専用コード

ロリコードとかだめっすか?

192 :デフォルトの名無しさん:2007/05/30(水) 03:11:59
>>191
ぷにコード(実在する)でも使ってなさい


193 :デフォルトの名無しさん:2007/05/30(水) 07:31:56
その括弧がきは馬鹿っぽく見える

194 :デフォルトの名無しさん:2007/05/30(水) 07:40:08
そういう演出は必要さ。 首相の「ザンキにたえない」発言と同じ。

195 :デフォルトの名無しさん:2007/05/30(水) 08:41:11
「ザンキにたえない」ってどういう意味なん?

196 :デフォルトの名無しさん:2007/05/30(水) 08:46:01
http://www.asahi.com/politics/update/0528/TKY200705280458.html
>首相周辺は「こういう結果に至ったことへの自らの責任を、この言葉に込めた」と解説する。


197 :デフォルトの名無しさん:2007/05/30(水) 10:29:13
スクリューパイルドライバーの吸い込みを防げないことだろう

198 :デフォルトの名無しさん:2007/05/30(水) 13:14:37
文字コードが乱用されているのはプログラマーとしてはやりづらい。
いっそのことすべてUnicodeにしてくれれば手間が省けるのにorz

199 :デフォルトの名無しさん:2007/05/30(水) 14:45:29
Unicode自体が何種類もある事態

200 :デフォルトの名無しさん:2007/05/30(水) 15:55:44
すべてUnicodeにしようってのは
そばの出前も会社の通勤も全てトラックを使おう
ってのと同じくらいナンセンス

201 :デフォルトの名無しさん:2007/05/30(水) 16:18:43
そのUnicodeだって、結合文字列・合成済み文字とか、文字列の向きとか
UTF-16のサロゲートペアとか、考え込むネタは尽きないわけで

202 :デフォルトの名無しさん:2007/05/30(水) 18:09:49
字体の扱いもおかしい
利用は辞退させて頂く


203 :デフォルトの名無しさん:2007/05/30(水) 18:34:53
審議中(AA略

204 :デフォルトの名無しさん:2007/05/31(木) 07:56:46
16bitじゃ絶対無理って最初からわかってたのに、
16bitに無理やり収めようなんて考えて自爆した欧米人は馬鹿すぎ

205 :デフォルトの名無しさん:2007/05/31(木) 09:59:32
8bitで十分だったから16bitにするだけでもビビってたのさ

206 :デフォルトの名無しさん:2007/05/31(木) 11:37:56
かれこれ20年になるのか


207 :デフォルトの名無しさん:2007/05/31(木) 13:38:31
アメリカに限れば、7bitででも足りてたんだよね?

208 :デフォルトの名無しさん:2007/05/31(木) 14:06:20
5bitでも足りるわな
ttp://www.trans-usa.com/mike/BaudCode.htm


209 :デフォルトの名無しさん:2007/05/31(木) 14:58:18
PCのインターフェースもパラレルからシリアルになってきたし、
文字コードも可変長なシリアルに変更しようぜ

210 :デフォルトの名無しさん:2007/05/31(木) 16:59:59
それとこれとは訳が違う。
しかも例えが逆だろう。

211 :デフォルトの名無しさん:2007/05/31(木) 17:23:43
>>209
つUTF-8

212 :デフォルトの名無しさん:2007/05/31(木) 20:31:39
>>201
Unicode「と」他のあらゆるコードを全部相手にするよりはマシ

213 :デフォルトの名無しさん:2007/06/01(金) 00:11:51
>>192
残念ながらPunycodeはピュニコードと音訳するのが近い。


214 :デフォルトの名無しさん:2007/06/01(金) 05:31:51
うにこーど
ゆにこーど

どっちが正しいですか?


215 :デフォルトの名無しさん:2007/06/01(金) 06:57:40
うにっくすとおなじくうにこーどがただしいですよ。

216 :デフォルトの名無しさん:2007/06/01(金) 09:39:31
ttp://www.uny.co.jp/
ここも「ウニー」だしな

217 :デフォルトの名無しさん:2007/06/01(金) 09:40:30
日本ウニシス

218 :デフォルトの名無しさん:2007/06/02(土) 08:50:03
ウではじまるとウインドーズみたいで嫌だな

219 :デフォルトの名無しさん:2007/06/02(土) 08:54:13
シャーペンの替え芯売ってるあのメーカってウニと読むのか

220 :デフォルトの名無しさん:2007/06/02(土) 10:19:14
いいえ、三菱鉛筆です。

221 :デフォルトの名無しさん:2007/06/02(土) 12:07:44
ウマ・サーマン?
ユマ・サーマン?

222 :デフォルトの名無しさん:2007/06/02(土) 12:11:32
ウマ・サーマン!

223 :デフォルトの名無しさん:2007/06/02(土) 12:26:54
Unimog
http://ja.wikipedia.org/wiki/%E3%82%A6%E3%83%8B%E3%83%A2%E3%82%B0

224 :デフォルトの名無しさん:2007/06/02(土) 14:37:17
ウナイテッド・ステイツ・オブ・アメリカ

225 :デフォルトの名無しさん:2007/06/02(土) 14:45:19
知り合いのヌーヨーカー(w)は「ヤイェヨ」は変わらないけど「ユ」は「ウ」になるって言ってた。

226 :デフォルトの名無しさん:2007/06/02(土) 20:24:27
Nuyork ?

227 :デフォルトの名無しさん:2007/06/02(土) 21:31:38
ewの発音は、元来「ユー」なんだけど、「ウー」に化けているのでnewが「ヌー」になる。

228 :デフォルトの名無しさん:2007/06/02(土) 21:39:16
4へぇ〜

229 :デフォルトの名無しさん:2007/06/02(土) 22:47:15
最初 knew を /nu:/ と発音されたときはさっぱり理解できんかったなあ。

230 :デフォルトの名無しさん:2007/06/08(金) 10:40:47
TRONコードに統一しようぜ

231 :デフォルトの名無しさん:2007/06/09(土) 02:54:12
TRONコードは(少なくとも現在の実装は)日本のことしか考えてません

232 :デフォルトの名無しさん:2007/06/09(土) 16:03:04
>>230
http://pc11.2ch.net/test/read.cgi/os/1028526865/7-13

233 :デフォルトの名無しさん:2007/06/09(土) 22:50:28
TRONコードに収録されてる文字のグリフはTRON文字収録センターで公開されてるけど
同定のための情報は提供されてないな。それは超漢字という製品に付けて売ってるから
公開できないだろうし

234 :デフォルトの名無しさん:2007/06/11(月) 19:41:57
エスペラントでOK

235 :デフォルトの名無しさん:2007/06/12(火) 09:50:19
Mi estas tre ĝoja konatiĝi kun vi.

236 :デフォルトの名無しさん:2007/06/12(火) 23:33:50
>>235
これエスペラントなの?
最初スペイン語かと思った。

237 :デフォルトの名無しさん:2007/06/12(火) 23:37:08
Mi estasでI amなのは覚えてる。
この辺の語彙はラテン語系から採用してるんだよな。



238 :デフォルトの名無しさん:2007/06/12(火) 23:40:10
あ、やっぱりそうなんだ。

239 :デフォルトの名無しさん:2007/06/13(水) 00:05:44
だから印欧語族の連中には割と覚えやすいんだよ
日本語とか圧倒的に不利
ある意味Unicodeと一緒だな

240 :デフォルトの名無しさん:2007/06/13(水) 00:07:46
利用者が単語登録してもいいところとかね。

241 :デフォルトの名無しさん:2007/06/13(水) 06:27:32
ところでかんじんのUnicodeとUTF-8の違いがまだ
のべられてないよね

242 :デフォルトの名無しさん:2007/06/13(水) 09:58:11
それは1桁で終わったんじゃないのか

243 :デフォルトの名無しさん:2007/06/14(木) 17:39:54
インディアン嘘ツカナイ

244 :デフォルトの名無しさん:2007/10/05(金) 16:28:22
馬鹿を見ることになるぞ

245 :デフォルトの名無しさん:2007/10/06(土) 00:23:04
約四ヶ月ぶりのレスがそんなでは、目が点になっちゃうだろ。 もうすこしなんかかけ。

246 :デフォルトの名無しさん:2007/10/06(土) 04:33:30
けっきょくいまだにスレタイトルの疑問をだれもがなtっとくできるほどうまく解説した人があらわれない

247 :デフォルトの名無しさん:2007/10/06(土) 11:19:13
>>246
>8で充分だろ。Unicodeの符号化方式の一つがUTF-8。

248 :デフォルトの名無しさん:2007/10/08(月) 01:28:21
Unicode: 人々
UTF-8: 名前一覧

249 :デフォルトの名無しさん:2007/10/09(火) 18:44:37
>>247
いや、Unicodeは単なる文字集合(レパートリ)ではなく、
あくまでも符号化文字集合だろ。

250 :デフォルトの名無しさん:2007/10/09(火) 19:20:19
Coded Character Set: Unicode
Character Encoding Form: UTF-8, UTF-16, UTF-32
Character Encoding Scheme:
UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, UTF-32LE

251 :デフォルトの名無しさん:2007/11/12(月) 04:35:06
どうして
UNICODE って UNI - CODE なはずなのに
何種類もあるのはなぜ?


252 :デフォルトの名無しさん:2007/11/12(月) 10:19:13
>>251
どうして>251の日本語がおかしいのはなぜ?

253 :デフォルトの名無しさん:2007/11/13(火) 08:37:12
雲丹には糞という意味もあるんだぜ

254 :デフォルトの名無しさん:2007/11/13(火) 15:09:13
バージョン違いを除けば、文字集合は常に唯一。
符号化の方法が色々あるだけ。

255 :デフォルトの名無しさん:2007/11/13(火) 20:32:27
ハングル……いやなんでもない

256 :デフォルトの名無しさん:2007/11/13(火) 21:11:28
UCS-2 ?

257 :デフォルトの名無しさん:2007/11/16(金) 02:58:10
UNICODE

UNCODEI

258 :デフォルトの名無しさん:2007/12/17(月) 18:06:40
hjfjgfjgj




ktykytk




hjkghkkg




j,jhjhklkgh




urtutrtu



jjkfjfg






259 :デフォルトの名無しさん:2008/02/04(月) 14:32:42
unicodeとutf-8の違いは
50音と平仮名の違いと一緒だろ

260 :デフォルトの名無しさん:2008/02/04(月) 15:59:19
utf-16が片仮名?

261 :デフォルトの名無しさん:2008/02/04(月) 16:08:46
片仮名でもローマ字でもなんでもいいよ
一つ一つマッピングする意味は無いと思うが

262 :デフォルトの名無しさん:2008/02/05(火) 23:56:09
いや一緒とは思えないから

263 :デフォルトの名無しさん:2008/02/06(水) 08:04:57
50音は平仮名でも片仮名でもないだろ。
読み方を定義したのが50音で、それに割り当てるのが平仮名であったり
片仮名なんだから。


264 :デフォルトの名無しさん:2008/02/07(木) 01:43:44
世界中の文字を表わせる Unicodeってのを定義しました。

じゃあそれを2オクテットで表現しよう→UCS-2

でも他の文字コードと互換性ないしいちいち全部に2オクテット使うのは不便だから
よく使う文字を1オクテットに対応させて使わないのは2,3,4オクテットに分けて符号化しよう。
これでASCIIコードと互換性できたしよく使う文字は少ないオクテットで表現できる。→UTF-8

でもUnicodeって2オクテットじゃ表現しきれなくなってます。
じゃあ4オクテット(実際は31ビット)使おう。→UCS-4

4オクテットじゃ長すぎるからよく使う文字を以下略で分けて16ビット符号化しよう。
UCS-2の範囲はそのまま表わそう、不足しているUCS-4の部分はあんまり使わないし符号2つを組み合わせて32ビットで表わそう。
内部がややこしくなったけどUnicode全部表現できるからいいよね。→UTF-16

っていう感じの認識しかないな俺は。

265 :デフォルトの名無しさん:2008/02/07(木) 02:55:54
どっちかというとこんな感じ。

32ビット化してUCS-4/UTF-32作った。
けど、今までのUCS-2なシステムどうしよう?
じゃあマルチバイトっぽいことしよう→UTF-16

266 :デフォルトの名無しさん:2008/02/07(木) 05:12:00
16ビットで世界の文字を網羅出来るなんてマジで思っていたのかね

267 :デフォルトの名無しさん:2008/02/07(木) 12:30:06
10年も昔の環境じゃできるだけリソース消費を抑えたいってのはわかるし
3オクテットじゃ扱いにくいし4じゃ多すぎるしで話がまとまらなかったんだろうな。

268 :デフォルトの名無しさん:2008/02/07(木) 21:05:02
単純に中国で既にコード化されてる分で漢字の量はOKとか考えてたんじゃないか


269 :デフォルトの名無しさん:2008/02/07(木) 21:49:38
そもそもそのやり方じゃ足りねえと文句付けたのは中国

270 :デフォルトの名無しさん:2008/02/07(木) 23:28:49
増やす気まんまんだったわけだな

271 :デフォルトの名無しさん:2008/02/12(火) 06:48:24
UCS-2とUTF-16の違いがわからない

272 :デフォルトの名無しさん:2008/02/12(火) 08:14:34
サロゲートペアでの拡張があるのがUTF-16、それがなくて16ビットだけなのがUCS-2


273 :デフォルトの名無しさん:2008/02/12(火) 10:54:25
WindowsXPのメモ帳で保存しようとすると
アンジーがデフォルトになってるんだけどシフトジスってのがみあたらないんだが。でも日本語ドキュメントがうまく保存される。
つまり、
アンジー = シフトジス
だと思う。

274 :デフォルトの名無しさん:2008/02/12(火) 17:08:33
メモ帳の選択肢のANSIというのは、
現在使用中の言語のANSIコードページの文字コードということ。
日本語の場合、それはコードページ932、つまりMicrosoftのShift_JIS。

言語の設定を変えれば、当然ANSIで保存するときの文字コードも変化する。

275 :デフォルトの名無しさん:2008/02/12(火) 17:30:56
>>274 そういう意味だったのか !

276 :271:2008/02/12(火) 23:05:35
>>272
では、Windowsの内部コードというか、hogehogeW系のUNICODE APIは、
UCS-2かUTF-16なのでしょうか?

277 :デフォルトの名無しさん:2008/02/12(火) 23:10:22
Windows 2000以降はUTF-16
それ以前はUCS-2(つまりサロゲートに対応していなかった)

278 :271:2008/02/12(火) 23:49:03
サロゲートがいまいちわからん
2バイトで足りないから、上位、下位にわけたってことは、
UCS-2が2バイトとで、サロゲートのあるUTF-16は上下合わせて4バイトってこと?

279 :デフォルトの名無しさん:2008/02/12(火) 23:58:17
そうだよ

280 :デフォルトの名無しさん:2008/02/13(水) 00:04:43
>>278
単に未使用領域の2文字分を組み合わせて使ってUCS-2に無い分の文字を表わそうというだけの話だから
・UCS-2 → そもそもその文字が無い
・UTF-16→ その部分だけ4バイト。UCS-2にもある文字は2バイト
という事になる

281 :271:2008/02/13(水) 04:00:14
>>280
なるほど足りないところだけ4バイトか
つまり、可変長なのね。
2バイト固定かと思ってたよ>UTF-16
へえ

282 :デフォルトの名無しさん:2008/02/13(水) 10:43:50
へえへえへえ

283 :デフォルトの名無しさん:2008/02/13(水) 23:46:44
>>281
そう。だからUTF-16の2バイトの部分がUCS-2と同じっていうメリットがあるんよ。
4バイト部分はあんまり使わない部分だからサロゲートペアっつう2つ合わせる方式で表わしてる。

284 :デフォルトの名無しさん:2008/02/14(木) 03:42:37
UCS-2=文字コード、UTF-16=文字エンコーディング
じゃなかったっけ?

UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。


285 :デフォルトの名無しさん:2008/02/14(木) 08:16:40
UCSは文字集合。
UTFはエンコーディング。

文字コードというあいまいな語はこういう議論では避けるべき。

286 :デフォルトの名無しさん:2008/02/14(木) 08:20:31
>UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。

Unicodeではエンコーディングをencoding formとencoding schemeの二段階に
分けていてそのへんややこしいことになってる。

287 :デフォルトの名無しさん:2008/02/14(木) 10:39:55
 国試では、「UNICODEとは、全ての文字体系が収まる"2byte"の文字コード」というのが正解答だったりする件。
いつからバイト長が固定されたんだよタコ。

288 :デフォルトの名無しさん:2008/02/14(木) 10:48:36
3.0未満のUnicodeかよorz

289 :デフォルトの名無しさん:2008/02/14(木) 11:09:02
2byteだったら1.xじゃない?

290 :デフォルトの名無しさん:2008/02/14(木) 12:55:03
それぞれの構造が単純じゃないから説明するのが面倒だな。

291 :デフォルトの名無しさん:2008/02/14(木) 14:52:35
>>284
ユニコードに関係した規格として、次の2つがある。
ユニコードコンソーシアムの「Unicode」。
ISO/IECの「ISO/IEC 10646 Universal Multiple-Octet Coded Character Set」。

前者の規格に含まれる符号化(エンコーディング)がUTF-8、UTF-16、UTF-32など。
後者の規格に含まれる符号化がUCS-2とUCS-4、UTF-8など。

UTF-8が両方に収録されているけど、同一と思って差し支えない。

292 :デフォルトの名無しさん:2008/02/14(木) 15:26:33
>>284

UCSは文字集合。

そしてその文字集合から2バイトで表せる部分を切り取ってきて
そのまんま使うのがUCS-2

それを拡張して使用できる文字範囲を広げたのがUTF-16

UTF-8は別のアプローチの符号化方法

293 :デフォルトの名無しさん:2008/02/14(木) 21:00:42
>>289
それ以前に1バイト=8ビットとは限らない

294 :デフォルトの名無しさん:2008/02/14(木) 21:04:49
どういう場合に1バイト8ビットじゃなくなるの?

295 :デフォルトの名無しさん:2008/02/14(木) 21:13:58
マシンがPDP-11だったりした場合

296 :デフォルトの名無しさん:2008/02/14(木) 21:26:35
JIS X 0208/0213の規格名ではわざわざ「7ビット及び8ビットの…」と言ってるだろ。
1バイトが8ビットとは限らないからだ。
それに対してUCSは>>291にあるとおり"Universal Multiple-Octet..."で
8ビットであることを明確化している

297 :デフォルトの名無しさん:2008/02/15(金) 00:08:33
1バイト≠8ビットな処理系でUTFを扱うようなケースはほぼないんじゃない?

298 :デフォルトの名無しさん:2008/02/15(金) 07:07:52
UTF-7もdeprecatedになったしな

299 :デフォルトの名無しさん:2008/02/15(金) 10:17:45
UTF-9の時代だろ

300 :デフォルトの名無しさん:2008/02/15(金) 10:50:34
エイプリルフールにはまだ早いぜ

301 :デフォルトの名無しさん:2008/02/16(土) 01:39:08
>>295
PDP-11 は 16bit マシンだぞ.DEC-10/20(36bit マシン)のことか?

302 :295:2008/02/16(土) 08:58:39
すまん

>>301 それです

303 :デフォルトの名無しさん:2008/02/16(土) 11:03:02
Latin-1の設定になってしまってるMySQLにUTF-8ぶっこんでもちゃんと動くんだけど
無理にset character set utf8してアクセスするとかえって文字化けしてしまう
そのままつかってたほうがいい?


304 :デフォルトの名無しさん:2008/02/16(土) 11:30:47
MySQLのバージョンは?
4バイト以上のBMP外を表すシーケンスに対応したのは6.0以降だから
それより古いバージョンではLatin-1ということにして
変換は自分で行うとかの小細工が必要

305 :デフォルトの名無しさん:2008/02/17(日) 01:56:53
きっと、PDP-8の12bitなんですよ(を

306 :デフォルトの名無しさん:2008/02/17(日) 09:46:31
Unisys機(旧UNIVAC系の古い汎用機)では、
1文字=6/8/9/12ビットと、4通りあったりする。
(1ワード=36ビットのマシンの生き残り)

307 :デフォルトの名無しさん:2008/02/17(日) 13:41:02
ユニコードのインディアンて?

308 :デフォルトの名無しさん:2008/02/17(日) 14:54:58
>>307
インド人です。アメリカ原住民のことは、ネイティブアメリカンと呼んでください。

309 :デフォルトの名無しさん:2008/02/17(日) 15:19:14
原住民的にはむしろインディアンの方がいいらしいけど

310 :デフォルトの名無しさん:2008/02/17(日) 15:59:19
エンディアンの語源を考えるとインディアンと表記しても間違いじゃないなぁ。

311 :デフォルトの名無しさん:2008/02/20(水) 02:18:31
9bitはPDP-10だろ。過去にかなり真面目に議論されたし、ちゃんとRFCも出てるぞ。
http://www.rfc-editor.org/rfc/rfc4042.txt
>306の言うとおり、昔は1バイト6bitだってあった。ISO646だって、7bit の他に6bit版の文字コードも
規定されてたし。近年の改正で6bit文字コード規定は残念ながら消滅してしまったけどね。

312 :デフォルトの名無しさん:2008/02/20(水) 08:36:24
みかんはリトルエンディアンの方が白い筋がよく取れるそうだ。

でも皮が硬いときはビッグエンディアンかなー。

313 :デフォルトの名無しさん:2008/02/20(水) 12:17:51
シフトジスとMSPゴシックは違うものだろうか?

314 :デフォルトの名無しさん:2008/02/20(水) 12:29:34
>>287
Unicodeは規格/標準の名前なのになあ。
検索とか比較とか符号化とか、文字に関する処理について書いてある。
http://www.unicode.org/glossary/#unicode
http://www.unicode.org/faq/basic_q.html#a

315 :デフォルトの名無しさん:2008/02/20(水) 12:30:44
>>291
付録CにUCS-2, UCS-4について、
ISO 10646との関係が書いてありますね。

316 :デフォルトの名無しさん:2008/02/20(水) 22:15:13
>>313
全然別物。
Shift_JIS = エンコーディング
MSPゴシック = フォント名



317 :デフォルトの名無しさん:2008/02/21(木) 05:59:06
文字コードをMS明朝で保存するのはどうやる?

318 :デフォルトの名無しさん:2008/02/21(木) 06:12:40
>>317
仕事の都合上、いやいやPC使ってんなら会社で聞け。
そうじゃないなら、もっと基礎から学び直せ。

319 :デフォルトの名無しさん:2008/02/21(木) 09:06:33
>>317
おまえはどこのPython使いだ?

320 :デフォルトの名無しさん:2008/02/21(木) 15:21:52
あなたはお風呂に入るとき
みかんから食べますか?
それとも山に登りますか?

321 :デフォルトの名無しさん:2008/02/21(木) 16:31:47
VB.NET2005だとまだエンコードクラスにMSPゴシックがないけど
できるだけ早く対応して欲しい。

322 :デフォルトの名無しさん:2008/02/21(木) 20:25:57
つまらないから帰れ
ネタじゃないならなおさらさっさと帰れ

323 :デフォルトの名無しさん:2008/02/21(木) 21:59:36
IDEのフォントをMS Pゴシックにすれば解決?

324 :デフォルトの名無しさん:2008/02/25(月) 10:55:59
なんで半角文字の範囲まとまってないんだよファッキン!!

325 :デフォルトの名無しさん:2008/02/25(月) 11:04:20
すみません、取り乱しました。

326 :デフォルトの名無しさん:2008/03/07(金) 11:56:50
unicodeに含まれる文字には番号はついてるんでしょ。
どうしてそれは使えないの?

327 :デフォルトの名無しさん:2008/03/07(金) 11:59:19
>>326
どこからの話の流れか分からないが、
それ(コードポイント)をそのまま使う符号化には
UTF-32, UCS-4, UCS-2がある。

328 :デフォルトの名無しさん:2008/03/07(金) 12:55:57
ありがとさんです。

329 :デフォルトの名無しさん:2008/03/07(金) 15:58:57
UTF-32, UCS-4, UCS-2はどう違うの?

330 :デフォルトの名無しさん:2008/03/07(金) 16:08:50
UTF-32/UCS-4
1文字32ビット。
現在では2つとも同じ中身。
どの規格に含まれているかというだけの違い。>>291に書いてある。

UCS-2
1文字16ビット。U+10000以上のコードポイントを持つ文字は表現できない。


331 :デフォルトの名無しさん:2008/03/07(金) 16:13:56
UTF-32 は U+110000 以上は無いんじゃ?

332 :デフォルトの名無しさん:2008/03/07(金) 16:16:36
もうめんどくさいから今までの全部廃止してUTF-256とかに統一して欲しい

333 :デフォルトの名無しさん:2008/03/07(金) 16:55:24
まったくだな

334 :デフォルトの名無しさん:2008/03/07(金) 18:30:27
バイトオーダーも固定して64byteぐらいにしておけばいい。

335 :デフォルトの名無しさん:2008/03/07(金) 18:50:01
そうだね余裕がある事はすばらしい事だね。

336 :デフォルトの名無しさん:2008/03/07(金) 19:03:36
アルファベット件の馬鹿共のせいで混迷しているのだ

337 :デフォルトの名無しさん:2008/03/07(金) 19:08:01
そういやIPAとUnicodeの対応表みたいなのってないの?

338 :デフォルトの名無しさん:2008/03/07(金) 20:25:10
http://webos-goodies.jp/archives/51072404.html

339 :デフォルトの名無しさん:2008/03/07(金) 20:34:37
Microsoft Visual UTF-2008 Professional Edition

340 :デフォルトの名無しさん:2008/03/07(金) 21:22:58
>>331
UCS-4もU+110000以上は使わないことになった。
>>330に「現在では」と書かれているのはそのへんの含みがあると思われる

341 :デフォルトの名無しさん:2008/03/11(火) 09:39:54
Unicode識別子についての日本語資料ってない?

342 :デフォルトの名無しさん:2008/03/12(水) 15:18:27
UTF-8にBOMついてるとまともに動かないソフトが多すぎて嫌すぎる
もっと細分化して、細かく細部まで決めてくれないとどーしよーもないな、実際

343 :デフォルトの名無しさん:2008/03/12(水) 15:41:24
アンジーってサイモンとガーファンクルだったような

344 :デフォルトの名無しさん:2008/03/12(水) 19:21:59
UTF-8ってBOMつけるんだっけ?

345 :デフォルトの名無しさん:2008/03/12(水) 19:32:18
RFC 3629 の 6. を見よ

346 :デフォルトの名無しさん:2008/03/12(水) 19:37:18
なる、つけるべきではないのか。

347 :デフォルトの名無しさん:2008/03/12(水) 19:43:49
いや、ついていても受け入れるべき
MySQLみたいにそもそもUTF-8を理解してない馬鹿げたソフト多すぎ

348 :デフォルトの名無しさん:2008/03/12(水) 20:25:36
>>346 一般には違う。
付けるべきじゃないのは、UTF-8であることが上位層で規定されている場合。

349 :デフォルトの名無しさん:2008/03/12(水) 20:28:49
BOMはエンコードを判別するためのものじゃないべさ。
Byte Order Markなんだから。

350 :デフォルトの名無しさん:2008/03/12(水) 20:52:02
つまりメモ帳のあの動作は正しいわけか

351 :デフォルトの名無しさん:2008/03/12(水) 21:18:54
>>349

まぁ元々はそうだったんだけど UTF-8に於いてはUTF-8であることを
あらわすシグネチャという位置付けにされた。

まぁ1バイト文字で済む国はシグネチャなくても全然問題ないんだろうけど
マルチバイト文字使ってる国ではシグネチャない場合は、エンコード誤認の
可能性があるからな。 UTF-8決めうちのソフトならいいんだけど


352 :デフォルトの名無しさん:2008/03/12(水) 21:20:13
勝手に追加するのはどうかと思うが、テキストファイルの頭にBOMついてるからって
誤動作する方が確実におかしい、無視すべき

353 :デフォルトの名無しさん:2008/03/12(水) 21:24:25
#!/usr/bin/env hogehoge

とかをBOM付きで保存すると死ぬって本当?


354 :デフォルトの名無しさん:2008/03/12(水) 22:37:41
ASCIIにしか対応していないものから見たらBOMはゴミ以外の何者でもないから

355 :デフォルトの名無しさん:2008/03/12(水) 22:41:24
UTF-8対応してるといいながら駄目なソフトが多いって話だろ?

356 :デフォルトの名無しさん:2008/03/12(水) 23:30:28
ASCIIだったらそもそもBOMは無いだろ
そしてASCII範囲外に対応してるならBOMあっても問題ないし

357 :デフォルトの名無しさん:2008/03/13(木) 02:15:31
俺はドラゴンボールが揃ったらBOMを廃止する。
それからDIS 10646.1、いやごめんなんでもない

358 :デフォルトの名無しさん:2008/03/13(木) 03:32:52
BOMよりスーパー写真塾の方がエロイよな。

359 :デフォルトの名無しさん:2008/03/13(木) 05:19:48
むかしのエロ本のオンナはそのままのかおだが
いまのエロ本は整形オンナばっかり

360 :デフォルトの名無しさん:2008/03/20(木) 20:31:17
UTF-8にBOMなんか辞めようと
そもそも、BOM=Byte Order Mark で、UTF-16、UCS-2、UTF-32、UCS-4なんかで使うものだし
そいつ(BOM)をそのままUTF-8変換した値がBOMもどきだし

Visual Studio 2005なんかはUTF-8でソース管理出来るみたいだな
今のPRJはLinuxでUTF-16使ってるから文字列は全てリソース扱い、っつかASCIIだろうとそうすべきではあるけど
ソースコードにUTF-16をhexでどかどか書いても見づらいだけだ
だけど、データ管理はUTF-16のがいい。サロゲートペアなんて使うことはまず無いし、1文字=2バイトと見なして差し支えなければ楽でいい
UTF-8は最近ISO 10646だっけ、RFCだっけ、あれUnicode.orgだっけ?規格変更で1〜4バイトの可変長になって、それとともにUTF-32の領域も狭くなったみたいだが

XMLなんかはエンコーディング付いてるから問題ないし、ソースもSJISやEUCさえなんとかなれば別に問題らしいものはない気がする>UTF-8
UTF-8自体ASCIIコンパチだしね

361 :デフォルトの名無しさん:2008/03/20(木) 20:59:22
UTF-32は最初からU+10FFFFまでだよ

362 :デフォルトの名無しさん:2008/03/20(木) 21:01:17
お前ら説明下手すぎだろ。
もっと俺にわかるように産業で説明しなさい。

363 :デフォルトの名無しさん:2008/03/20(木) 21:10:47
>ソースもSJISやEUCさえなんとかなれば

これがなんとかならないから UTF-8にBOMが存在しているんだろうけどね。


364 :デフォルトの名無しさん:2008/03/20(木) 23:18:25
>>360
>エンコーディング付いてるから問題ないし
そういう場合はBOMを付けるなとちゃんと書いてある
ttp://tools.ietf.org/html/rfc3629#section-6

BOMを付けるのはあくまでもそれがUTF-8と確定できない場合だけだから問題ないだろ
それともエンコード不明のテキストファイルを力技でエンコード推測するのが正しいとでも?
あるいはテキストファイル=UTF-8として統一するつもり?
Latin-1とかはそうそう無くならないと思うぞ

365 :デフォルトの名無しさん:2008/03/20(木) 23:24:46
エンコード不明のテキストファイルを力技でエンコード推測するのが正しい

366 :デフォルトの名無しさん:2008/03/21(金) 09:46:07
BOMダセエと思うが、
BOMも処理できないUnicode処理系は氏ねよ。

367 :デフォルトの名無しさん:2008/03/21(金) 16:53:25
Chinaってチャイナじゃなくてシナ=支那だったのね
勉強になった

368 :デフォルトの名無しさん:2008/03/21(金) 23:53:53
はい?

369 :デフォルトの名無しさん:2008/03/22(土) 00:19:13
いいえちがいます。

370 :デフォルトの名無しさん:2008/03/22(土) 01:29:01
チャイナシンドロームってどういういみ?

371 :デフォルトの名無しさん:2008/03/22(土) 08:02:56
何の? 一般的には原子炉のメルトダウン事故の用語だが。

372 :デフォルトの名無しさん:2008/03/22(土) 11:18:00
Japanてジパングじゃなくてニッポン=日本だったのね
勉強になった

373 :デフォルトの名無しさん:2008/03/22(土) 14:49:25
漆器のことだろ?

374 :デフォルトの名無しさん:2008/03/22(土) 20:25:36
sorry japanese only.

375 :デフォルトの名無しさん:2008/03/23(日) 00:40:01
かわいそうな日本人専用

376 :デフォルトの名無しさん:2008/03/23(日) 03:26:12
漆塗りのペニスキャップとか作ると
やっぱりかぶれたりするんだろうか

377 :デフォルトの名無しさん:2008/03/23(日) 03:36:46
漆塗りの器で唇かぶれた話とか聞いたことないけど。

378 :デフォルトの名無しさん:2008/03/23(日) 09:25:29
漆がかぶれるのは生(?)の漆だけじゃないかと

379 :デフォルトの名無しさん:2008/03/23(日) 10:50:49
シャープの芯のUniもこれが語源なん?

380 :デフォルトの名無しさん:2008/03/23(日) 12:41:34
http://ja.wikipedia.org/wiki/%E4%B8%89%E8%8F%B1%E9%89%9B%E7%AD%86

| 国内では「三菱鉛筆」と、旧財閥の三菱グループ各社と混同されないように
| 「uni」(ユニ)のブランドも使っている。「uni」は、英語で「単一の」を
| 表す接頭語「uni」から比類無き品質ということを表したもの。

381 :デフォルトの名無しさん:2008/03/23(日) 13:11:50
単一はmonoだったよーな
⇔pori

モノ

トリ
テトラ

382 :デフォルトの名無しさん:2008/03/23(日) 14:04:20
monoもuniも一つという意味

383 :デフォルトの名無しさん:2008/03/23(日) 14:11:37
×pori
○poly

釣りなのかこれは

384 :デフォルトの名無しさん:2008/03/24(月) 09:41:03
ユニークのユニ

385 :デフォルトの名無しさん:2008/03/24(月) 12:14:05
ギリシャ語系のmono, di, tri, tetraと、ラテン語系のuni, bi, ter(tres, tri), quadriの違いだな。
多角形も両方の表現があって、trigon, tetragon, pentagonとするかtriangle, quadrangle, quintangleとするか。
# 尤も、アメリカ辺りだと入り混じっていて、septagon, septangle, heptagon, heptangleのどれも見かけるけど。
## ついでに言えば、polygonに対するラテン語はmultiangleになる筈だけど……

386 :デフォルトの名無しさん:2008/03/24(月) 12:38:42
rectangleは?

387 :デフォルトの名無しさん:2008/03/24(月) 13:10:35
>>386
ラテン語由来。ラテン語にも、rectangulasという言葉があるらしい。英語に直訳すると、right angleになるそうな。
つーか、m-w.comでちょっと調べれば済むことなんですが。

388 :デフォルトの名無しさん:2008/03/24(月) 13:41:24
都市ガスはtoshi gus だからペリーが運んできたオランダ語っぽい

389 :デフォルトの名無しさん:2008/03/24(月) 13:44:07
トナカイってアイヌ語だったんだな

390 :デフォルトの名無しさん:2008/03/24(月) 17:13:23
ラッコもな

391 :デフォルトの名無しさん:2008/03/26(水) 03:23:13
MacのZIP解凍したら濁点や半濁点で文字化けするんだけど
これの変換てどうしたらええの?

392 :デフォルトの名無しさん:2008/03/26(水) 08:26:24
NFCしてください。


393 :デフォルトの名無しさん:2008/03/26(水) 11:01:30
NFDとNFCの違いか。
オレもそれやらかして、Perlのモジュール使って直したなあ

394 :デフォルトの名無しさん:2008/03/26(水) 21:32:28
ありがとう
一部元に戻らないトコもあるけど中身が理解できる分には戻せたよ

395 :デフォルトの名無しさん:2008/04/10(木) 09:02:55
結局UTF-8みたいなASCII互換の可変長コードが主流になるんだったら、
80h〜FFhをコードページ指定にして、
その後の1〜2オクテットをまとまった文字種セットにしとけば、
すっきりしたコードになったのになあ。

396 :デフォルトの名無しさん:2008/04/10(木) 22:30:07
状態持ちはイヤン

397 :デフォルトの名無しさん:2008/04/10(木) 22:39:27
それなんてISO 2022?

398 :デフォルトの名無しさん:2008/04/12(土) 03:23:48
>>395
Arena-i18n内部コードやん
あれは固定長だけど。

399 :デフォルトの名無しさん:2008/04/23(水) 07:54:25
>>367
>Chinaってチャイナじゃなくてシナ=支那だったのね
あー!そういう意味だったのか。
支那支那っていうから判らんかった。
支那の語源がChinaなのね。

400 :デフォルトの名無しさん:2008/04/23(水) 09:52:54
どちらの語源もサンスクリットの同じ単語だそうだが

401 :デフォルトの名無しさん:2008/04/23(水) 12:02:46
いくつか説があるようだが
ttp://www004.upp.so-net.ne.jp/teikoku-denmo/html/history/honbun/cina2.html
は「秦」を語源としてるな
まぁJapanもニッポンがジパングを経てジャパンになったんだから
シナとチャイナ位の違いは普通か

402 :デフォルトの名無しさん:2008/04/23(水) 13:12:28
日本の現代中国語読みがリーペンで、マルコポーロが東方見聞録で書いたのがジパング。
この違いがかなりデカい気がするが、どう理解すればよいのやら。
古代中国語で日本をジパングと読む?

403 :デフォルトの名無しさん:2008/04/23(水) 22:01:44
ri4ben3は現代普通話でのピンイン
「日」は漢音で"ji" 「本」は呉音で"hong"

404 :デフォルトの名無しさん:2008/04/24(木) 02:02:24
今の日本語で日を「ジツ」と読むのは古い中国語からきてるわけだし。
中国は現代音、中古音、古音と何度も大きな変貌を経ている。特にマルコポーロの時代である
元は中国語の発音が大きく変化した時代の一つ。

405 :デフォルトの名無しさん:2008/04/26(土) 03:58:14
誰もそんな話は聞きたくないし。
UTF8とユニコードの違いが聞きたいし。

406 :デフォルトの名無しさん:2008/04/26(土) 05:29:15
いやいや
>>401の話は重要だよ。

たとえば天安門。
これは自動的に排除するようにプログラムを組むことが義務付けられていて、守らなければ毒ガスの人体実験されて体を切り刻まれる。

>>401の話は、少なくとも一つのキーワードについてそれをしなくてよいと確認できる根拠だから。


407 :デフォルトの名無しさん:2008/04/26(土) 10:05:46
聖火リレーで旗を広げようとした人がそれを広げる間もなく大勢の警官に取り押さえられ逮捕されたけど、日本って中国並みに怖いな。


408 :デフォルトの名無しさん:2008/04/26(土) 10:26:45
http://tvde.web.infoseek.co.jp/cgi-bin/jlab-dat/s/216761.jpg
http://tv.dee.cc/jlab-maru/s/maru1209168412846.jpg

Japanese police suppressed a member of Tibetan human rights group
日本警察によるチベット人弾圧の様子

409 :デフォルトの名無しさん:2008/04/26(土) 10:57:08
>>408
警官の数が異常すぎ。

「たかだか芸能人が怪我するかも」程度なのに洞爺湖サミットの何倍の警官を投入してるんだと。


410 :デフォルトの名無しさん:2008/04/26(土) 11:24:17
それは勘違いだよ。
この場合、芸能人の命の火が消えること以上に、聖火が消えることのほうにピリピリしてるんだよw

聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、
活動家を抑えられずに聖火消しちゃったら日本の恥だからね。

411 :デフォルトの名無しさん:2008/04/26(土) 12:10:20
そもそもくだらんイベントに税金使うなよ。

412 :デフォルトの名無しさん:2008/04/26(土) 12:12:01
Unicode関係ないだろうおまえら……。

413 :デフォルトの名無しさん:2008/04/26(土) 12:27:16
>>410
でも火を消そうとはしてないんだ。

むしろさらに火を大きくしようとして発炎筒やら布切れやら持ち込んでるわけで。


414 :デフォルトの名無しさん:2008/04/26(土) 12:31:37
それは始まってからじゃないとワ絡んだろ

415 :デフォルトの名無しさん:2008/04/26(土) 12:32:28
.NETはたとえ完全でないのでもいいから文字コード自動判別クラスを用意すべき

416 :デフォルトの名無しさん:2008/04/26(土) 12:33:36
>>414
普通に殺されかけて通報したときは「ナイフが心臓に刺さったらもう一度通報してください。」って言われるのに。


417 :デフォルトの名無しさん:2008/04/26(土) 21:23:08
設計や管理がテケトーだから自動判別なんてのが必要なシステムになるんだ

恥を知れ!

418 :デフォルトの名無しさん:2008/05/06(火) 07:28:17
>>415
禿同

419 :デフォルトの名無しさん:2008/05/06(火) 09:11:19
>>415
間違えると「バグだ!金返せ」と言うバカの相手にいいかげんうんざりしたんだろう。

420 :デフォルトの名無しさん:2008/05/11(日) 17:40:38
>>410
>聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、

これは暗にUnicodeのことを言ってるんだよな?
だよな?

421 :デフォルトの名無しさん:2008/05/11(日) 22:49:27
批判くらい小学生でもできる。気に入らないなら代案を示すべき。
ここでグダグダ文句ばっかしタレてるヤツは小学生なのか?

422 :デフォルトの名無しさん:2008/05/12(月) 01:07:59
これは暗にみんしゅとうのことを言ってるんだよな?
だよな?


423 :デフォルトの名無しさん:2008/05/12(月) 01:49:03
>>421
まぁそうなんだが、正しすぎて2ch全否定になってるな。

424 :デフォルトの名無しさん:2008/05/12(月) 06:44:47
>>353
カーネルが1バイト目の#を見てスクリプトと機械語を
識別しているから、その前にBOMがついていたら機械語
として実行しようとして暴走するだろう




425 :デフォルトの名無しさん:2008/05/12(月) 06:52:41
機械語って、おまえELFとか知らんのか


426 :デフォルトの名無しさん:2008/05/12(月) 07:10:45
COMファイルしか知らないんだよきっと

427 :デフォルトの名無しさん:2008/05/12(月) 08:50:43
あれ?最近COMファイルって見かけないな。
使わなくなったの?

428 :デフォルトの名無しさん:2008/05/12(月) 08:52:49
拡張子のCOMならDOS専用だから。

429 :デフォルトの名無しさん:2008/05/12(月) 09:54:42
もうやだこの低レベルスレ

430 :デフォルトの名無しさん:2008/05/12(月) 21:25:44
>>428
ところがどっこい。Windowsは拡張子COMのPEを平気で実行する。
例えばNT系のformat.com

431 :デフォルトの名無しさん:2008/05/12(月) 21:28:54
スレ違い止め止め

432 :デフォルトの名無しさん:2008/05/12(月) 23:28:26
>>429
おこぼれを貰いに来てるだけのお前みたいな奴は、
自分じゃその下がったレベルを引き上げられないからつらいよね。

でも、おこぼれ貰いに来てるだけの奴が嘆いても、「勝手に嫌がってれば?」としかw

433 :427:2008/05/13(火) 01:52:21
俺も428と同じ認識でネタを書いたつもりだったが。動くのな。
まあ確かにMSだったら拡張子.comでも動くようにしてそうだ。

434 :デフォルトの名無しさん:2008/07/19(土) 10:20:15
タイのヤフーにアクセスするとブラウザにタイ語がきちんと表示されるけど、それをコピペして
エディタに貼り付けると文字化けするのは何故でしょうか?

エディタはUnicode版サクラエディタを使いました。

Yahoo! ?????????
http://th.yahoo.com/

FrontPage - サクラエディタUNICODE化プロジェクト
http://mofmof.nsf.tc/soft/sakura_unicode/

435 :デフォルトの名無しさん:2008/07/19(土) 10:42:17
こんなところで聞くより、開発元で聞いたほうが早いと思うぞ。

436 :デフォルトの名無しさん:2008/07/19(土) 10:45:19
unicode->ウニ
utf-8->アワビ

437 :デフォルトの名無しさん:2008/07/19(土) 10:47:01
>>432
おまえもな

438 :デフォルトの名無しさん:2008/07/19(土) 11:43:42
>>435
なるほどサクラエディタの問題なのか。
EmEditorだとタイ語というのがあったので、それでするときちんと表示されました。

439 :デフォルトの名無しさん:2008/07/19(土) 12:52:32
たぶんクリップボードからANSI文字列として取得してるんじゃないかな。

440 :デフォルトの名無しさん:2008/07/19(土) 14:13:18
>>434
普通に表示できたけど、フォントリンクがうまくいってないだけとかじゃないの

441 :デフォルトの名無しさん:2008/07/19(土) 14:21:07
>>439
EmEditorにコピペすると、ちゃんとタイ語で表示されたので、多分そうではないと思います。
そこで疑問がまた出てきました。

Unicodeってほぼ全文字を扱っているんですよね?
EmEditorのUTF-8を選んでも、上記のタイ語は文字化け。
タイ語を選んでやっときちんと表示される。

タイ語用のUTF-8とかがあるんですかね?

442 :デフォルトの名無しさん:2008/07/19(土) 14:22:19
>>440
フォントリンクとはどういうことでしょうか??

443 :デフォルトの名無しさん:2008/07/19(土) 14:29:15
扱ってる文字集合にタイ文字が含まれてないせいで表示されないのか、
ただ単にフォントが足りなくて表示されないだけなのか、
問題を切り分けろっていってるんだよ。

444 :デフォルトの名無しさん:2008/07/19(土) 15:27:41
UTF16は終端文字がNULLバイト2つだから嫌い

445 :439:2008/07/19(土) 15:38:17
>>441
そういう意味じゃなくて。
サクラエディタ自体がミスってて、コピーされた文字列をAPIで取得する時に、
Unicode指定じゃなく、ANSIを指定しちゃってるかもってこと。
まあさすがにそんなことは無いだろうけど。

446 :デフォルトの名無しさん:2008/07/19(土) 15:43:26
>>445
それはないな。俺が確かめたから。

447 :デフォルトの名無しさん:2008/07/19(土) 16:01:27
>>443
UTF-8というのはタイ語は含まれていないのでしょうか?
ブラウザとEmEditorではタイ語をきちんと表示しているので、タイ語のフォントはあると考えてはダメなの
でしょうか?

タイ文字をブラウザからEmEditorにコピペして、それを保存したのをバイナリエディタで見ると、UTF-8じゃ
ないみたいだ。

EmEditorのタイ語という文字コードはUTF-8とは別物ということか?

>>440さんの言っていることは、、自分の環境ではUTF-8のタイ語を表すコード領域とタイ語のフォントが
うまく結びついていないということかな?

でもブラウザではちゃんと表示されているんだよな。
よくわからん。

448 :デフォルトの名無しさん:2008/07/19(土) 16:17:46
>>447
少なくともIEとFirefoxは言語別に使用するフォントの設定を持っていて、
タイ語の文字を見つけたら、タイ語用のフォントでタイ語の文字を描く。
ところがサクラエディタはそうなっていないのではないのか、ということ。
(無理に日本語フォント使って豆腐になるとか)

>UTF-8じゃないみたいだ。
保存時にデフォルトでShift_JISが選ばれるなんてことはない?

あと、試しにsakuraW_r1398.zipをダウンロードして
コピペしてみたが、うまくいっているように見えるけど。

449 :デフォルトの名無しさん:2008/07/19(土) 18:15:17
>>448
>保存時にデフォルトでShift_JISが選ばれるなんてことはない?
設定を色々見ましたが、そんなのはなさそうな感じです。
EmEditorには、UTF-8の他にタイ語(Windows)という文字コードが選択できるんですよね。

1文字だけコピペして、それをタイ語(Windows)で保存。
それをバイナリエディタで見ると3バイトでした。だから多分Shift_JISではないと思います。

>>448さんではうまくいってるということは、やはり自分の環境の何かが悪いってことなんしょうね。

450 :デフォルトの名無しさん:2008/07/19(土) 18:43:59
>>449
あたまだいじょうぶか

451 :デフォルトの名無しさん:2008/07/19(土) 18:45:28
そもそもサクラエディタはShift_JISで扱える文字しか対応していないはず

452 :デフォルトの名無しさん:2008/07/19(土) 18:47:10
>>451
Unicode版の話だといってるだろ…
よくよめよ

453 :デフォルトの名無しさん:2008/07/19(土) 18:51:26
Unicode対応版を謳っていても実際に満足にUnicodeに対応している
テキストエディタはVisual Studioのエディタと秀丸くらいしかないよね。

454 :デフォルトの名無しさん:2008/07/19(土) 19:22:12
>>449

タイ語(Windows)って選択肢はUNICODEとかじゃなくて、CPなんとかというコードページ
(WindowsのShift JISだと CP932)をタイ語のコードページに切り替えてるだけじゃないの?

だからコードページ切り替えに対応していないエディタでは文字化けする。

一旦EmEditorで UTF-8で保存して、そのあと他のエディタで読み込ませてみたら?


455 :デフォルトの名無しさん:2008/07/19(土) 19:26:17
サクラエディタスレでやれば?

456 :デフォルトの名無しさん:2008/07/19(土) 19:56:00
>>453
秀丸は合字処理がおかしい

457 :デフォルトの名無しさん:2008/07/19(土) 20:23:26
>>454
UTF-8で保存して、サクラエディタと秀丸で開いてみましたが、ダメでした。
とりあえず自分の環境では、Unicodeとそれに対応するフォントがうまく対応付けされていないと
結論ずけておきます。

458 :デフォルトの名無しさん:2008/07/19(土) 22:19:03
うちの秀丸は、http://th.yahoo.com/ をコピペしてもぜんぜん文字化けしないよ。
もちろんタイのにょろにょろした文字が画面いっぱいな。

459 :デフォルトの名無しさん:2008/07/20(日) 01:58:58
コピペがOS依存だって事忘れてるわけじゃないよな

460 :デフォルトの名無しさん:2008/07/20(日) 09:59:56
>>453
おまえが知らないだけ。

461 :デフォルトの名無しさん:2008/07/20(日) 13:17:41
Alphaとかいうエディタは異字体セレクタまで対応してたな。

462 :デフォルトの名無しさん:2008/07/20(日) 18:24:26
Unicodeは16ビットで全ての文字が収まると早合点したことが失敗の始まりですか?

463 :デフォルトの名無しさん:2008/07/20(日) 18:50:18
いいえ、全ての文字を符号化できると思ったのがそもそもの誤りでした

464 :デフォルトの名無しさん:2008/07/20(日) 20:32:10
TRONや今昔文字鏡のことですね、わかります

465 :デフォルトの名無しさん:2008/07/20(日) 20:58:54
もっと言えば、文字とは符号化できるものである、という前提から間違っている。

466 :デフォルトの名無しさん:2008/07/20(日) 21:00:25
いや、TRONは存在自体が間違っている。

467 :デフォルトの名無しさん:2008/07/20(日) 21:49:53
>>465
文字って符号じゃないの? 符号化できない文字表現という存在自体が想像付かない。
あ、一応、1:1マッピングできない(適切でない)ケースがあることくらいは想像が付く。

468 :デフォルトの名無しさん:2008/07/20(日) 21:56:14
そんなネタにマジレスしなくても

469 :デフォルトの名無しさん:2008/07/20(日) 22:03:45
龜甲占いの結果を写生しました/写真に撮りました。
この画像は符合ですか?
一応「龜」ですが。

「龜」と字を書きました。画像として保存しました。符合ですか?
この画像ファイルには"1.jpg"という名前をつけました。符合ですか?
「龜」の代りに<img src="1.jpg">とすることにしました。符合ですか?


470 :デフォルトの名無しさん:2008/07/20(日) 22:13:02
連番をつけて符号化しようと思ったあたりが、問題なんじゃね

471 :デフォルトの名無しさん:2008/07/20(日) 23:41:19
合成文字とか似ている漢字は一緒にしようとか
めんどくさい事考えるから・・

472 :デフォルトの名無しさん:2008/07/21(月) 00:08:21
> 似ている漢字は一緒にしよう
これはまったくやらずに済まそうとするのは無理じゃない?
デジタル化以前には表記揺れするのがあたりまえだったんだし。

どこまでやるかを間違った、という批判ならその通りだと思うけども。

473 :デフォルトの名無しさん:2008/07/21(月) 00:15:23
いや,揺れたものをそのまま保存・表示できない時点でダメ
揺れたものを対象にした論文などが表現できなくなるから

474 :デフォルトの名無しさん:2008/07/21(月) 01:29:46
人間が文字の生き死にを自由にしようなんて、おこがましいとは思わんかね・・・・・・

475 :デフォルトの名無しさん:2008/07/21(月) 03:09:30
本間先生?

476 :デフォルトの名無しさん:2008/07/21(月) 09:22:12
結局、「国番号+JISコード」 で16ビットとか32ビットとか、みたいな形にすればよかったんじゃない?
(外国はJISコードとは言わんが、ま、その国ごとで規格化されてるコード、って理解してくれい)

変に世界中の文字をシャッフルしちゃったのが間違いだな。

477 :デフォルトの名無しさん:2008/07/21(月) 09:56:33
それがサロゲートペアだろ。

478 :デフォルトの名無しさん:2008/07/21(月) 10:48:55
なんでやねん

479 :デフォルトの名無しさん:2008/07/21(月) 11:28:35
>>473
そいつは画像でやれよ……

一般的な用途ではある程度ユニファイされてる方がいい。
微妙な違いなんて日常的な文章には不要だし、検索とかにも不便だし。

480 :デフォルトの名無しさん:2008/07/21(月) 11:53:14
>>477
(;゚д゚) ・・・
 
(つд⊂)ゴシゴシ
  _, ._
(;゚ Д゚) …!?

481 :デフォルトの名無しさん:2008/07/21(月) 13:30:19
>一般的な用途ではある程度ユニファイされてる方がいい
これはその通りだと思うけど、符号化のレベルではやらない方が良かったかと・・

もう1つ上のレイヤを用意して表記ゆれを吸収するのはそこの層がやる
とかにすればやり方を失敗してもそこの層を差し替えるとかして何とかなったのに

482 :デフォルトの名無しさん:2008/07/21(月) 19:58:48
同意.一番下でマージしちゃったらどうしようもない
画像でやれって言う人は,実際に自分でやってないから
どれだけ大変かつ不便で読み難くなるか分からないんだろうな

483 :デフォルトの名無しさん:2008/07/21(月) 20:39:00
実際に文字コード設計したことない人が国コード付けろとか128ビットにしろとか
妄想語るのももはやお約束ですよねー

484 :デフォルトの名無しさん:2008/07/21(月) 21:19:59
UnicodeでAdobe Japan1-6互換の字形切替をする枠組みが既に正式規格化されているにも関わらず、
「みたいな形にすればよかったんじゃない?」
「もう1つ上のレイヤを用意して」
「一番下でマージしちゃったらどうしようもない」
とか言ってるヤツってナンなの?ゆとり?
ttp://www.unicode.org/reports/tr37/
ttp://www.unicode.org/ivd/
ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-demo-irg30.pdf
ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-white-paper.pdf

上記PDFに書かれている対応製品以外にも、フリーソフトやフリーフォントで既に対応しているものもある。
ttp://alpha.sourceforge.jp/
(↑:日記の2008年1月〜に詳細記述)
ttp://yozvox.web.infoseek.co.jp/
(↑:掲示板の2008年1月〜に詳細記述)

てか、文字コードの話をするなら↓の方がいいだろ、常識で考えて。
文字コード総合スレ part3
ttp://pc11.2ch.net/test/read.cgi/tech/1180250376/

485 :デフォルトの名無しさん:2008/07/21(月) 21:42:42
>>483
いかにも 「ワタシが文字コードを設計しました!」 って言いたげだな

486 :デフォルトの名無しさん:2008/07/21(月) 21:43:44
何事にも失敗はある。

487 :デフォルトの名無しさん:2008/07/21(月) 21:48:47
Unicodeは失敗

488 :デフォルトの名無しさん:2008/07/21(月) 22:15:27
ROMっているだけだったが、ここが文字コードスレだと錯覚していた。

489 :デフォルトの名無しさん:2008/07/21(月) 22:17:37
ゆとり教育は失敗

490 :デフォルトの名無しさん:2008/07/21(月) 22:26:55
失敗したら反省が必要。そして次回はどうすべきか案を出し合う。

491 :デフォルトの名無しさん:2008/07/23(水) 19:39:46
>>453
しゅーまる(何故か変換(ry)は、アラビア語ちゃんと扱えるんだ。すごい。
xyzzyはアラビア語無理なんだよなあ・・・

492 :デフォルトの名無しさん:2008/07/23(水) 21:00:50
有名どころだと秀丸とEmEditorくらいだな。

493 :デフォルトの名無しさん:2008/07/24(木) 09:32:45
しゅーまるぐみはやわじゃねえ!
しゅーまるぐみにはいるんだ!

494 :デフォルトの名無しさん:2008/07/24(木) 10:12:30
EmEditorのフリー版のUnicode対応はイマイチだけど
有料版はいいんかな

495 :デフォルトの名無しさん:2008/07/24(木) 14:54:39
Alphaはどうよ

496 :デフォルトの名無しさん:2008/07/24(木) 15:03:58
>>494
たぶんエディタ部分のコードは同じだと思うよ。

497 :デフォルトの名無しさん:2008/07/24(木) 15:38:06
>>495
アラビア語の結合は対応してるみたいだけど、キャレットとか選択領域の端とかと重なると切れちゃう。
ただ、いまのところシンタックスハイライティングがびみょんで、この板的な実用には向かんかなあ。

>>492
EmEditorや秀丸って右から左に表示するオプションあったっけ?
前に試したときはどっちもダメだった気がしたんだけど、それから対応したのかな。

498 :デフォルトの名無しさん:2008/07/24(木) 15:48:06
直接指定するわけじゃなくて、エンコードで判断

499 :デフォルトの名無しさん:2008/07/24(木) 15:59:43
>>498
それはEm? 秀丸?

でも、そうなるとUnicode系の文字コードじゃRTL文書書けないのかな。

500 :デフォルトの名無しさん:2008/07/24(木) 22:25:06
>>497
> この板的な実用には向かんかなあ。

プログラム技術@2ch掲示板
ttp://pc11.2ch.net/tech/

この板はプログラムを作る人のための板です。

プログラム・ソフトの使い方は PC 初心者板やソフトウェア板へ。
ウイルス、ハッキング・クラッキングを求めるような発言は禁止です。
Javascript は Web 制作板、CGI は Web プログラミング板へ。
業界談義、愚痴はプログラマ板へどうぞ。
ゲーム関係の話題はゲーム製作板へどうぞ。
ネタ、板とは関係の無い話題はご遠慮ください。

501 :デフォルトの名無しさん:2008/07/24(木) 22:31:19
>>500は有名な基地外だから無視していいです

502 :デフォルトの名無しさん:2008/07/24(木) 22:36:12
>>500
Alphaは、アラビア語が(比較的)まともに扱えるけど
「シンタックスハイライトが微妙」だから
「プログラムを作る人」が使うエディタとしては「実用には向かん」
って行ってる様にみえるんだけどなんでそのコピペなのか理解できません!

503 :499:2008/07/24(木) 22:42:59
試してみたけど、秀もEmも右から左にする方法を見つけらんなかった…

504 :デフォルトの名無しさん:2008/07/24(木) 22:43:33
夏休みだから話題が逸れる前に予防線張ろうとしたと解釈してあげよう。

505 :デフォルトの名無しさん:2008/07/24(木) 23:00:11
     ///////
    ///////____________
    ///////  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄| ̄ ̄
   ///////              (~) チリンチリン
   ///////              ノ,,
  ///////     ∧_∧         / ̄ ̄ ̄ ̄ ̄ ̄
  ///////     ( ´∀`)( 厨 ) )) <  夏だなあ〜
 ///////      (つ へへ つ      \______
///////   //△ ヽλ  ) ) 旦
//////  l ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄l
/////    ̄| .| ̄ ̄ ̄ ̄ ̄ ̄ ̄| .| ̄
////     ^^^          ^^^

506 :デフォルトの名無しさん:2008/07/24(木) 23:29:12
>>500
コイツ、バッチファイルのスレで誰にも相手にしてもらえないから
こんなスレを荒らしてやがる。

507 :デフォルトの名無しさん:2008/07/29(火) 07:43:38
↓メタ夏厨議論どうぞ

508 :デフォルトの名無しさん:2008/07/30(水) 06:59:11
Unicode は、夏厨
UTF-8 は、メタ夏厨議論


509 :デフォルトの名無しさん:2008/07/30(水) 15:04:31
UNICODE: 数社の企業が決めたもの、使用できる文字とその番号を定義。
UCS: 国際標準、内容はUNICODEとほほ同じ
UTF: UNICODEやUCSをコンピュータ上に表現するための仕組み

この認識あってる?

UNICODEとUCSってのはJavaScriptとECMAScriptの関係に似てるんかねぇ。

510 :デフォルトの名無しさん:2008/07/30(水) 17:01:28
コンソーシアムとその規格が Unicode
国際標準規格が ISO/IEC 10646

そしてそのそれぞれで UCS とか UTF とか定義してる

511 :デフォルトの名無しさん:2008/07/30(水) 17:16:04
ISO/IEC 10646の名称(の頭文字とったもの)がUCSだろ。
509の理解で合っているぞ。

512 :デフォルトの名無しさん:2008/07/30(水) 18:07:10
大は小を兼ねるんだから、
Shift-JistとEUCもこれからはUTF-8で扱えばすべて解決。
ユニックス派のカタブツはEUCにこだわるからいけない

513 :デフォルトの名無しさん:2008/07/30(水) 19:32:12
文字集合は大は小を兼ねてるけど符号化方式が違ってるだろ

514 :デフォルトの名無しさん:2008/07/30(水) 19:47:50
最近のUNIXなら、日本語環境でもだいたいUTF-8だと思うが。


515 :デフォルトの名無しさん:2008/07/30(水) 20:54:34
>>512
むしろS-JISの方が圧倒的に量が多くて、移行できないだろ。

516 :デフォルトの名無しさん:2008/07/31(木) 02:18:53
>>509
> この認識あってる?

間違ってます。

517 :デフォルトの名無しさん:2008/07/31(木) 09:20:32
>>516
kwsk

518 :デフォルトの名無しさん:2008/07/31(木) 13:25:21
>>517
間違ってますなんて書くだけの奴に詳しく説明できるほどの根拠なんかあるわけ無いだろ。
ちゃんと根拠があって指摘してるなら>>510 のようにはじめから書くしな。


519 :デフォルトの名無しさん:2008/08/01(金) 06:28:17
>>518
「間違ってますなんて書くだけの奴に詳しく説明できるほどの根拠なんかあるわけ無い」
「ちゃんと根拠があって指摘してるなら>>510 のようにはじめから書く」
そう考える根拠は?

あ、そうか、根拠をはじめから書いていない奴には、詳しく説明できるほどの根拠が無いんだっけ。
ごめんごめん、訊くだけ無駄だった。

520 :デフォルトの名無しさん:2008/08/01(金) 09:08:55
>>519
まあ、その、なんだ、悪かったよ…。図星つかれてレスもまともに読めなくなるほど泣く
とは思わなかったんだよ。もう言わないから勘弁してくれ、な?


521 :デフォルトの名無しさん:2008/08/01(金) 09:25:39
泣かしたな悪者め

522 :デフォルトの名無しさん:2008/08/01(金) 10:47:03
子ども泣かすの良くない

523 :デフォルトの名無しさん:2008/08/01(金) 11:21:50
><

524 :デフォルトの名無しさん:2008/08/01(金) 20:07:25
   、_人_人_人_人_人_人_人_人_人_人_人_,
  、_)                       (_
   _)  夏   厨   警   報  !! (_
   _)                     (
   '⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒`
                   //
           ヘ,(゚∀゚)y'^     アーヒャ ヒャ ヒャ ヒャ ヒャ
          、  _L_;二;_.j_  , \\
           ̄ ト、~Y~,/| ̄
             ,|yΛ=スイ|、   アーヒャヒャヒャ   _
             ' | | !;∀Y i| `          /##;〉
           |イYト〉イY.|           /  ̄
   アヒャヒャ     レYy'`vレ|     ヽ(゚∀゚ )ノ
            Vy  V'       (夏 )ヘ
   ヽ( ゚∀゚)ノ               <
     ( 夏)ヘ
     <

525 :デフォルトの名無しさん:2008/08/01(金) 20:51:53
>>520
夏のどさくさに紛れて、そういうキャラ付けで逃げるのはよくないよ。気持ち悪いし。

526 :デフォルトの名無しさん:2008/08/02(土) 00:49:27
鸚鵡返し、人格攻撃はスレが機能しなくなるからやめようよ・・・

527 :デフォルトの名無しさん:2008/08/02(土) 09:11:38
>>516>>509に対して説明すれば済むだけの話。

528 :516:2008/08/03(日) 21:29:00
>>509
http://pc11.2ch.net.nat.homeunix.org:65082/post.pl?b=tech&t=1177930957

529 :デフォルトの名無しさん:2008/08/04(月) 01:36:40
本来は
Unicode ⊂ UTF-8
であることは明白だが、

事Windows OSではUTF-16の事を単にUnicodeと表記するので、
Windows上では
Unicode ≠ UTF-8
とも言える

530 :デフォルトの名無しさん:2008/08/04(月) 10:02:52
釣りですか

531 :デフォルトの名無しさん:2008/08/04(月) 14:51:21
ググれカス

532 :デフォルトの名無しさん:2008/08/04(月) 21:52:42
ネタにマジレス( ´;゚;ё;゚;)きんも〜☆彡

533 :デフォルトの名無しさん:2008/08/05(火) 04:13:34
   【JISコード】
デコード↑/↓エンコード
     シフトJIS
      EUC

   【ユニコード】
デコード↑/↓エンコード
     UTF8
UTF16LE/UTF16GE
     UTF32

     【音声】
デコード↑/↓エンコード
      WAV
      MP3
      WMA

    【ビデオ】
デコード↑/↓エンコード
      AVI
      MPG
      FLV

534 :デフォルトの名無しさん:2008/08/05(火) 05:55:43
全角で書く奴って、やっぱりアレだな…

535 :デフォルトの名無しさん:2008/08/05(火) 06:28:39
ときに、UTF16GEってなんだろ。

536 :デフォルトの名無しさん:2008/08/05(火) 07:17:57
デコードした先がコードとは何ともかんとも

537 :デフォルトの名無しさん:2008/08/05(火) 09:48:19
>>535
ゲルググエンディアン

538 :デフォルトの名無しさん:2008/08/05(火) 12:00:16
あまりの非の打ち所の無い完璧な説明なため
全角や誤字しかツッコミどころが無いな。

539 :デフォルトの名無しさん:2008/08/05(火) 13:13:37
確かにゲルググエンディアンは完璧だ


540 :デフォルトの名無しさん:2008/08/05(火) 14:10:58
コンテナはどうなんだ

541 :デフォルトの名無しさん:2008/08/05(火) 23:19:58
>>533
おい大漁だなw
やったじゃねーかw

>>533-539
釣られまくり乙

542 :デフォルトの名無しさん:2008/08/06(水) 02:34:28
全角と誤字以外のツッコミは無いのかい?

543 :デフォルトの名無しさん:2008/08/06(水) 11:32:08
へんなのが住みついたね

544 :デフォルトの名無しさん:2008/08/06(水) 13:00:18
夏だね。

545 :デフォルトの名無しさん:2008/08/06(水) 16:11:48
そろそろ秋だよ

546 :デフォルトの名無しさん:2008/08/06(水) 16:16:05
暦の上でどうだろうと、今は夏真っ盛りだ

547 :デフォルトの名無しさん:2008/08/07(木) 02:01:12
では、全角と誤字以外には非の打ち所の無い
カンペキな「Unicode と UTF-8 の違い」の解答という事で
無事にこのスレを閉じたいと思います。
みなさん、長い間ごくろうさまでした。

548 :デフォルトの名無しさん:2008/08/07(木) 02:16:28
お疲れさまでした。

549 :デフォルトの名無しさん:2008/08/07(木) 02:35:31
先生の次回作にご期待ください。

550 :デフォルトの名無しさん:2008/08/07(木) 04:19:12



    世 界 迷 作 劇 場


                おわり

551 :デフォルトの名無しさん:2008/08/07(木) 21:56:12
思ったこと。
・広義の「ユニコード」はUTF-8等の規格を含めることがあるので不正確
>>536指摘済みだけど、音声のenc/decと、文字のenc/decを一緒にするのは
 違和感あり。JISコードは既に「符号(コード)化」されてるから。
 俺的には
  音楽→(量子化)→PCM→(各種圧縮)→MP3 の3段階が
  文字→符号化文字集合→テキストエンコーディング に対応する感じ
・AVIって格納形式の概要だけ決まってて、圧縮アルゴリズムは別じゃなかった?

552 :デフォルトの名無しさん:2008/08/07(木) 22:59:54
狭義のユニコードっていうのはM$が決めつけたUnicodeのことか?
例えば、ttp://msdn.microsoft.com/ja-jp/library/ms191200.aspx
>Unicode 仕様は 2 バイトを使用して 1 つの文字をエンコードすることでこの問題を解決しました。2 バイトには 65,536 個のパターンがあるため


つーか、広義も狭義もねーよ。バーヤ。

553 :デフォルトの名無しさん:2008/08/08(金) 00:08:21
まだやる気か?

554 :デフォルトの名無しさん:2008/08/08(金) 01:50:13
>>552
MSが決めつけたというよりも、まだUTF-8もサロゲートペアもなかった昔を引きずっているだけ。

555 :デフォルトの名無しさん:2008/08/08(金) 04:17:35
サロゲートペア厨必死だな。無視されてんのによw

556 :デフォルトの名無しさん:2008/08/08(金) 09:21:22
サロゲートペアは、32bit wchar_tの入り口ですよ。

557 :デフォルトの名無しさん:2008/08/08(金) 09:33:01
マイクロソフトで統一すれば市場に一致して解決

558 :デフォルトの名無しさん:2008/08/08(金) 09:38:44
けど駄目仕様に駄目実装が蔓延ると思うよ
競合いてもあれだもん

559 :デフォルトの名無しさん:2008/08/08(金) 10:57:45
結論
>>1みたいなのが現れるのはMSが糞だから

560 :デフォルトの名無しさん:2008/08/08(金) 11:58:30
何でも他人のせい、日本のせいにする人たちみたいですね。

561 :デフォルトの名無しさん:2008/08/08(金) 12:35:44
批判だけならパートのおばちゃんでも出来る。
問題は、どう改善すべきか、改善するに当たって
予算・人員・スケジュールをどう工面するのか、だ。
それを何一つ提示していない。
おまいら、パートのおばちゃん以下のクズ。

562 :デフォルトの名無しさん:2008/08/08(金) 14:04:35
その理屈だとパートのおばちゃんと同等であって以下とは読み取れないが

563 :デフォルトの名無しさん:2008/08/08(金) 22:59:01
少なくともパートのおばちゃんは働いてるからな
                   ^^^^^^^^^

564 :デフォルトの名無しさん:2008/08/09(土) 00:51:35
>>552
マイクロソフトの言うUnicodeはエンコーディングの一つでしょ。>>533からの
流れからして
協議:符号化文字集合としてのUnicode
広義:符号化文字集合およびそのエンコーディング仕様。Unicode規格
以外の解釈はありえんと思うが。このスレ>>14ぐらいまで読み直せ。

565 :デフォルトの名無しさん:2008/08/09(土) 04:22:32
だからわざと、マイクロソフトのUnicodeと区別するためにカタカナで【ユニコード】と書いたがな。

566 :デフォルトの名無しさん:2008/08/09(土) 07:01:57
お前ら、紛らわしいと思わないのか?
MSは正義だからOKとか、思考停止杉。

567 :デフォルトの名無しさん:2008/08/09(土) 08:34:38
え、誰か「MSは正義」とか言ってる?
その脳内設定が、お前の思考停止なんじゃないの?
思春期のオトコノコの「自分以外はみんなバカ症候群」みたい。

568 :デフォルトの名無しさん:2008/08/09(土) 09:53:28
>>567
>>557

>思春期のオトコノコの「自分以外はみんなバカ症候群」みたい。

569 :デフォルトの名無しさん:2008/08/09(土) 11:23:13
> お前ら

たった一人書いてただけで、「お前ら」か。
知ってる?「デフォルトの名無しさん」は全部同一人物なんだぞ。

570 :デフォルトの名無しさん:2008/08/09(土) 13:07:27
以下でOK?

・(文字集合としての)Unicode
扱う文字の一覧を定めて、識別用に符号をつけたもの。
「あ」=U+3042、「A」=U+0041・・・

・UTF-8
Unicodeの文字列を電子データとして扱う際の表現を定める「エンコーディング」の一つ。
あA(U+3042 U+0041)→E3 81 82 41

エンコーディングの他の例としてシフトJIS・UTF-16 BE・マイクロソフトのUnicode 等がある。
よってUnicodeとは
 1. 符号化文字集合の一つ
 2. 文字コードの規格
 3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
の3つの意味があり、一方UTF-8は、エンコーディングの一つとしての意味しかない。

571 :デフォルトの名無しさん:2008/08/09(土) 13:21:53
>>570
> よってUnicodeとは
>  1. 符号化文字集合の一つ

こんな使い方はない。

>  3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい

アホドキュメント、アホアプリは無視するのがいい。


572 :デフォルトの名無しさん:2008/08/09(土) 13:24:33
×符号化文字集合
○文字集合
だよね?
MSは無視できないほど規模があるのが憎たらしくて困ったチャンなわけで。

573 :デフォルトの名無しさん:2008/08/09(土) 13:39:23
「マイクロソフトの」と書いているが、
まともなドキュメントもあるわけで…
メモ帳の文字コード選択ウィンドウとかそういう部分的なことで、
>  3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
を言葉の定義の一つに同列に並べてるのは馬鹿っぽいね。

574 :デフォルトの名無しさん:2008/08/09(土) 13:42:08
>>573
メモ帳もUnicode/Unicode big endianだけど。

575 :デフォルトの名無しさん:2008/08/09(土) 13:52:08
とりあえず「UTF-8にBOM」という意味がわからん表現はやめて欲しいもんだ

576 :デフォルトの名無しさん:2008/08/09(土) 15:01:15
>  3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
典拠は?

>>552だけ?
これってSQL Server 2005のドキュメントだよね?

577 :デフォルトの名無しさん:2008/08/09(土) 15:32:53
>>576
Office XP リソース キット
Unicode サポートと多国語ドキュメント
ttp://msdn.microsoft.com/ja-jp/library/cc389880.aspx
>Unicode では、どの文字に対しても 2 バイトからなる固有のエンコードが割り振られます。


578 :デフォルトの名無しさん:2008/08/09(土) 15:51:22
やっぱりアプリ屋はフレームワーク屋よりレベル低くなるね。
周辺技術の知識については。

579 :デフォルトの名無しさん:2008/08/09(土) 16:21:00
抱き合わせ販売禁止

というのが文字コード氾濫を招いた。

最初からOSとセットで組まれていれば文字コードはマイクロソフトのやつがスタンダードになって
ユーザーはいくつものコードに悩まされることがなかった

580 :デフォルトの名無しさん:2008/08/09(土) 23:37:35
Shift JISで悩まされてた人って多いんじゃないの?

581 :デフォルトの名無しさん:2008/08/10(日) 02:42:19
>>572
「符号化文字集合」でいいのでは?
文字の集合を定義して、各文字に対して符号化表現(例:A=U+41)を規定してるから。

582 :デフォルトの名無しさん:2008/08/10(日) 02:59:24
「符号化文字集合」の定義はJIS/ISOとW3C/IETFですら違うからどちらのつもりなのか
くらいはっきりさせろ

583 :デフォルトの名無しさん:2008/08/10(日) 05:13:31
>>580
それで悩むのはUNIX屋だけ。

584 :デフォルトの名無しさん:2008/08/10(日) 07:29:26
>>579
えーっとどこから突っ込めば?(笑)

つーか貧弱な16bitマシンで日本語とかやろうとしてShiftJISなんてもんをつくったとこからおかしくなってるよなぁ、いろいろと。

585 :デフォルトの名無しさん:2008/08/10(日) 07:57:24
>>583
携帯メール入れるとどのプラットフォームも悩ましいのでは?

586 :デフォルトの名無しさん:2008/08/10(日) 09:20:58
>>584
しかも、SJIS作ったの誰だ?って話だよな。

587 :デフォルトの名無しさん:2008/08/10(日) 10:57:11
当時の状況を考えれば仕方ないかんじだろ
一文字16bitなんて贅沢の極み

588 :デフォルトの名無しさん:2008/08/10(日) 12:24:15
贅沢の極み。と言ってた人が、
年金記録問題を予見できなかったんだろうな〜。
氏名をカナで管理ってありえねーよ。


589 :デフォルトの名無しさん:2008/08/10(日) 14:08:27
むしろカナしかないだろ

590 :デフォルトの名無しさん:2008/08/10(日) 22:24:23
仮に漢字を使っていたとしてもやっぱり年金問題は起こっていたと思う。
略字正字の入力がずさんだとか、読み方分かんなくてうやむやにデータ入力するとか。

591 :デフォルトの名無しさん:2008/08/11(月) 20:51:33
氏名に漢字をつかえば
全国のグリーンピアは莫大な赤字を抱えずに済んだのだろうか?

592 :デフォルトの名無しさん:2008/08/11(月) 21:56:05
グリーンピアって暴力団が接待するための専用設備だろ

593 :デフォルトの名無しさん:2008/08/12(火) 00:30:44
年金台帳の問題って朝鮮脳が主犯ぽいな

594 :デフォルトの名無しさん:2008/08/12(火) 17:49:01
>>588

昔はカタカナと英数しか印刷できないプリンタがほとんどで、
漢字やひらがなな印字できるプリンタは「漢字」プリンタとか
「日本語」プリンタとか名前が付いて特別扱いされてたのさ

595 :デフォルトの名無しさん:2008/08/12(火) 17:52:16
>>594
それを最初から分かってて、あえてコンピュータで管理しようとしたんだろ?
もうアフォとしか言いようが無い。

596 :デフォルトの名無しさん:2008/08/12(火) 18:34:30
いやいや、当時でも立派に稼動してたシステムはあるさ。

597 :デフォルトの名無しさん:2008/08/12(火) 20:21:19
>>595
そういう問題じゃないだろ。
アホかよw


598 :デフォルトの名無しさん:2008/08/12(火) 23:19:25
>>595
現代からだったらなんとでも言えるよ。
例えば、将来DNAを登録出来る、確実に本人に紐付けられるシステムが出来たとして、
「昔は」名前を登録するだけしか出来なかったんだと。
で、
> それを最初から分かってて、あえてコンピュータで管理しようとしたんだろ?
> もうアフォとしか言いようが無い。
と言うようなもんじゃないか?

599 :デフォルトの名無しさん:2008/08/13(水) 03:49:07
官公庁では今でも”「漢字」プリンタとか「日本語」プリンタとか”を使ってるね。
こないだ海上自衛隊の護衛艦を見学する機会があったが
艦内に古めかしい漢字プリンタが鎮座ましましておられた。

600 :デフォルトの名無しさん:2008/08/13(水) 03:53:16
何を調達するにしても防衛スペックの準拠を求められるからね
それがかなり無茶苦茶な要求だったりするから一度通った物は三十年前の図面でもそのまま流用する。

601 :デフォルトの名無しさん:2008/08/13(水) 07:57:01
いやぁ、防衛省関連はそんなもんじゃないよ。「スペックの準拠」じゃなくて他のものが要求されているんだ。判るだろ?w

602 :デフォルトの名無しさん:2008/08/19(火) 15:12:27
幹部用最新PC一式(個人宅へ配送。伝票は廃棄のこと)なのか
ケツの穴なのか。

603 :デフォルトの名無しさん:2008/08/19(火) 22:39:57
>>602
んにゃ、世間をにぎわした件とか、○○システムと抱き合わせとか。

604 :デフォルトの名無しさん:2008/08/31(日) 02:27:12
VB6.0が受け取るコマンドラインはどんな文字コードでもいいんだろうか。
VB.NETアプリからVB6.0アプリをコマンドライン付きで呼び出すとコマンドラインはUTF-8でわだすが
しかしVB6.0はShift-Jisじゃないと扱えないし
どうなっとるんじゃ

605 :デフォルトの名無しさん:2008/08/31(日) 04:55:33
>>604
VB6の内部コードはUTF-16LE
しかしエディタではsjisという素敵仕様

606 :デフォルトの名無しさん:2008/08/31(日) 10:15:36
いや、それは知ってて、
とりあえず、コマンドラインでユニコード文字のトランプ図柄をVB6.0アプリに送ってみるとどうなるよ


607 :デフォルトの名無しさん:2008/08/31(日) 10:59:37
VB6はそこ等辺の境界で勝手に文字コード変換しまくる
どんな仕様かはもう使ってないから忘れた

608 :デフォルトの名無しさん:2008/09/03(水) 01:22:45
>VB.NETアプリからVB6.0アプリをコマンドライン付きで呼び出すとコマンドラインはUTF-8でわだすが
というか、これが訳わからん。
VB.NETのエンコーダ選択が間違っとるんでないの。

609 :デフォルトの名無しさん:2008/09/03(水) 01:50:50
コマンドラインをUTF-8で渡すって言うのが俄に信じがたいな

610 :デフォルトの名無しさん:2008/09/04(木) 20:12:13
VB6だろうと何だろうとエントリポイントはWinMainかwWinMainな訳で、
UTF-8なんてあり得ん。OSの仕組みをよく考えろ。
アプリがWinMainの時はOSがシフトJISで渡し、アプリがwWinMainの時は
OSがUTF-16で渡してくる。

611 :adsl-75-61-122-97.dsl.pltn13.sbcglobal.net :2008/09/22(月) 09:06:03
>>610
WinMainとかを呼ぶのはランタイムだろうに……
コマンドライン取得もランタイムが GetCommandLine() で取得
してるので、OS がやっているわけではないよ。


612 :デフォルトの名無しさん:2008/09/22(月) 10:14:59
>>611
専ブラ、アップデイトしろよ。

613 :デフォルトの名無しさん:2008/09/22(月) 16:03:59
>>612
実はアップデートテストをかねて書きこんだんだけど
うまくいってなかったみたい :-)


614 :デフォルトの名無しさん:2008/10/30(木) 09:34:52
>>100あたりでようやく判った。

http://www.atmarkit.co.jp/fxml/askxmlexpert/024utf/24utf.html

これも判りやすかった。

615 :デフォルトの名無しさん:2008/10/30(木) 09:51:55
>>100は微妙に誤解を産む表現だぞ。
UTF-16は、16bit単位が一つか二つで一文字。
32bitじゃない。BEとLEがあるからこの違いは本質的。

616 :デフォルトの名無しさん:2008/11/01(土) 22:53:49
えぇぇぇぇ?16ビット2つで32ビットじゃ無いの?
もしそうなら、128ビット暗号とか、32ビットCPUじゃ絶対に扱えないじゃん。

617 :デフォルトの名無しさん:2008/11/01(土) 22:55:27
32bitの文字一文字と
16bitの文字二文字ではビットの並びが違う

という事を言いたかったんではないかと

618 :デフォルトの名無しさん:2008/11/02(日) 12:13:27
>>617
釣りにマジレス

619 :デフォルトの名無しさん:2008/11/02(日) 21:53:17
「ビットの並び」 なんて言ってる時点でアフォ丸出し。
同じ値をあらわす32ビットの数値であっても、
ディスクファイル上とメモリー上とCPU内部のALUとでは
ぜんぶ同じとは限らん。

620 :デフォルトの名無しさん:2008/11/02(日) 22:16:27
意味がわからんならレスしなくていいよ

621 :デフォルトの名無しさん:2008/11/03(月) 00:46:47
会話の粒度を間違う奴ってどうしようもないよな。
一番細かい視点に立つ自分が一番確かで賢い話をしていると勘違いするし。

622 :デフォルトの名無しさん:2008/11/04(火) 02:55:18
>>620
>>621
だから釣りだって

623 :デフォルトの名無しさん:2008/11/04(火) 11:55:41
Numberを略すとなんでNoになるん?

624 :デフォルトの名無しさん:2008/11/04(火) 13:28:20
>>623
Numberを略しているんじゃなくて、MiddleEnglishのnombreの略かラテン語のnumeroの略なんでしょ。

625 :デフォルトの名無しさん:2008/11/04(火) 16:09:55
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1481014

626 :デフォルトの名無しさん:2008/11/04(火) 21:46:18
AをBにコピーできない。
AがBにコピーできない。
どちらも同じ意味?正しい日本語?

627 :デフォルトの名無しさん:2008/11/04(火) 21:51:48
>626
後者はあまり正しい日本語ではないね。

628 :デフォルトの名無しさん:2008/11/18(火) 23:25:51
> AがBにコピーできない。

AがBにコピーされない。 
だと違和感少ないけど意味違っちゃうか。

ところでこれはスレとなんか関係あるのか?

629 :デフォルトの名無しさん:2009/01/17(土) 07:21:45
hosiyu

630 :デフォルトの名無しさん:2009/01/18(日) 09:02:26
 

631 :デフォルトの名無しさん:2009/06/12(金) 01:37:33
utf-8nってなんなの?

632 :デフォルトの名無しさん:2009/06/12(金) 08:55:14
BOMなし

633 :デフォルトの名無しさん:2009/06/12(金) 20:15:32
勝手にBOMをつけるエディターってなんなの?
イヤガラセなの?

634 :デフォルトの名無しさん:2009/06/13(土) 03:41:22
javaコンパイラ javac はソースコードに BOM が付いてるとエラーを出す。
eclipseのjavaソーコードエディタは BOM が無いと文字化けする。

うんこ

635 :デフォルトの名無しさん:2009/07/16(木) 11:20:59
UTF-8っていつ発生したんだっけか?

636 :デフォルトの名無しさん:2009/07/16(木) 11:47:06
そんなことよりUFT-8にBOMをつけた基地外を知りたい

637 :デフォルトの名無しさん:2009/07/16(木) 11:50:15
オレも知りたいわ、それ

638 :デフォルトの名無しさん:2009/07/16(木) 11:54:07
BOMがバカ正直に付いてるのは、Windowsのテキストファイルだけだと思うお。
Mac OS X とか付けないっぽいw

639 :デフォルトの名無しさん:2009/07/16(木) 12:04:46
バカ正直ならBOM付いてるUTF-8は不正として開かないだろ
折角のバイトストリームに先頭の概念持ち込むとか基地外にも程がある
そんなゴミ以下の物付けるならせめて文字長位は格納できる様にしとけって話だな

640 :デフォルトの名無しさん:2009/07/16(木) 12:47:05
>>635
UNIXを作ったKen Tompson大先生が1992/09/02に考えた。
http://www.cl.cam.ac.uk/~mgk25/unicode.html#history

641 :デフォルトの名無しさん:2009/07/16(木) 12:58:22
d

UNIX作った人たち天才。

642 :デフォルトの名無しさん:2009/07/16(木) 13:00:32
先頭にZERO WIDTH SPACEがあるUTF-8テキストが不正だとは知らなかった
これからはエラーを吐くようにしないと

643 :デフォルトの名無しさん:2009/07/16(木) 13:14:22
>1992/09/02

WinNT3.1って1994年発売だし、UTF-8にしとけば良かったのにね。
なんでUTF-16(だよね?)にしたんだろ。

644 :デフォルトの名無しさん:2009/07/16(木) 13:39:19
後からならどうとでも言える典型だなw

645 :デフォルトの名無しさん:2009/07/16(木) 13:42:11
とは言っても、
言語の変数レベルに侵食する
超巨大な問題&選択なんだけど。

BeOSとかLinux新ディストリとかはUTF-8な希ガス。

646 :デフォルトの名無しさん:2009/07/16(木) 14:12:55
可変バイトだと文字列処理が遅くなりそうでや
UTF-32がいい

647 :デフォルトの名無しさん:2009/07/16(木) 17:04:03
>>646
まさにその理屈で、Windows NTやJavaは16ビットになったんだろ。
まだ当時の欧米人は16ビットで足りると思っていたみたいだからね。

ところで、結合文字列があるから、まじめにテキスト処理しようとすると
UTF-32にしたところでちっとも固定長として扱えない罠。

648 :デフォルトの名無しさん:2009/07/16(木) 17:21:57
そこで
UTF-4
でつよ

649 :デフォルトの名無しさん:2009/07/16(木) 17:22:56
もとい
UTF-64
でつよ

650 :デフォルトの名無しさん:2009/07/16(木) 17:45:08
>>649
3文字以上からなる結合文字列は?

651 :デフォルトの名無しさん:2009/07/16(木) 20:08:38
結局いろいろ加味するとUTF8が最強なのかね

652 :デフォルトの名無しさん:2009/07/16(木) 20:11:09
結合で全ての文字を表せるとか言い張ったUnicodeは馬鹿の仕様
そんな糞仕様を包括できるUTF-8は神の仕様
基地外のつけたBOMすら許容できる懐の深さは計り知れない

653 :デフォルトの名無しさん:2009/07/16(木) 20:38:06
母国語EUCにサロゲートペア付けた符号化が最強
そう云う意味でラテン文字圏ではUTF-8が最良なのは事実だね

654 :デフォルトの名無しさん:2009/07/16(木) 20:42:09
とりあえず、標準では何を使えばいいのか決めてくれ。

655 :デフォルトの名無しさん:2009/07/16(木) 23:22:52
バカ言うな。
BOM無しでいったいどうやって ISO8859 と UTF8 を区別できるんや!
ラテン文字市ね!

656 :デフォルトの名無しさん:2009/07/16(木) 23:31:58
>>653
その最強様は文字境界問題とか仕様レベルで解決してるの?
可変長だがストリームとして扱えないとかゴミじゃない?

657 :デフォルトの名無しさん:2009/07/17(金) 09:09:39
Fの女SE(笑)がUnicodeのこと丸で知らなくて引いたな。

658 :デフォルトの名無しさん:2009/07/17(金) 09:21:23
そんなの不実でつ

659 :デフォルトの名無しさん:2009/07/17(金) 09:43:05
大丈夫、某芝の言語処理のSEがUTF-8を知らないくらいだから。

660 :デフォルトの名無しさん:2009/07/17(金) 09:45:21
つーか、もうユニコードやめて欲しい。

661 :デフォルトの名無しさん:2009/07/17(金) 09:45:29
丸投げかと思っていたがUnicode知らなくて困るくらいの仕事はしていたのか

662 :デフォルトの名無しさん:2009/07/17(金) 10:07:22
>>660
同意だが、もう_

663 :デフォルトの名無しさん:2009/07/17(金) 10:15:49
サロゲートを埋め尽くした後で、真UTF-32を作ればいいじゃん。

664 :デフォルトの名無しさん:2009/07/17(金) 10:21:27
>真UTF-32

誰も欲しがってない希ガス。

古いメインフレームとかで文字列サイズ計算に有難がられただけで、
ウェブアプリ時代になって、文字列はどれだけでも入れれるのが当たり前で、
1文字長が完全固定ってことが特に要求されない。

665 :デフォルトの名無しさん:2009/07/17(金) 12:16:53
不満を並べるだけなら、15歳少年にだってできる。
建設的な意見、代替案は出せないのか?
ユニコードに代わるものを発案して、規格化して、世界中に普及させろや。
それができないなら、おまいら15歳少年と同じ。

666 :デフォルトの名無しさん:2009/07/17(金) 12:21:51
今その権力を蓄えてる。

667 :デフォルトの名無しさん:2009/07/17(金) 12:28:25
>>665
自分は権威にすがるだけの高2病定番レスだなw

668 :デフォルトの名無しさん:2009/07/17(金) 12:51:05
何かのブラウザかエディタであたかも無関係なものとしてエンコードリストに載ってるのがあれだね

669 :デフォルトの名無しさん:2009/07/17(金) 19:05:53
で?
建設的な意見は?

670 :デフォルトの名無しさん:2009/07/17(金) 23:09:14
64bitOSが主流になるとUTF-64とか使われるようになるのかね

671 :デフォルトの名無しさん:2009/07/17(金) 23:23:26
リトルインディアンとビッグインディアンは
何が小さくて大きいんだ?

672 :デフォルトの名無しさん:2009/07/17(金) 23:40:23
>>670
そんなもん、そもそも定義されていないから。

673 :デフォルトの名無しさん:2009/07/18(土) 00:37:14
>>671
お前の家の冷蔵庫に玉子はあるか?
あったら、小一時間ぐらい眺めてみるんだ。

674 :デフォルトの名無しさん:2009/07/18(土) 01:03:42
ウチは横からだ

675 :デフォルトの名無しさん:2009/07/18(土) 10:28:22
リトルインディアンとビッグインディアン

16階建てのビルを
右に倒すか
左に倒すか
の違い

676 :デフォルトの名無しさん:2009/07/21(火) 11:16:31
×インディアン
○エンディアン

>>675
ミドルエンディアンは?

677 :デフォルトの名無しさん:2009/07/21(火) 16:04:17
×アップル
○アポー

678 :デフォルトの名無しさん:2009/07/21(火) 16:44:31
×ミドルエンディアンは?
○ミディアムポインターは?

679 :デフォルトの名無しさん:2009/07/21(火) 16:56:42
>>677
釣りはいいから。まさかとは思うが、エンディアンとインディアンが同じ単語だと思っていないよね?

>>678
--
ウェブ全体から検索 日本語のページを検索

ウェブ検索ツールを閉じる検索ツールを表示
"ミディアムポインター"との一致はありません。
--
何それ?

680 :デフォルトの名無しさん:2009/07/21(火) 17:00:44
>ミディアムポインター

ファーポインターとニアーポインターの混ざる
リンクライブラリのミディアムモデルってのがあった。

681 :デフォルトの名無しさん:2009/07/21(火) 17:07:19
ミドルエンディアンは聞いたことあるし、
タイニー、スモール、コンパクト、ミディアム、ラージ、ヒュージのメモリモデルも
思い出したくない思い出だが、
ミディアムポインターってのは初耳だな。

682 :デフォルトの名無しさん:2009/07/26(日) 01:55:17
よく分かってないんだけど

wchar_t str[] = L"日本語";

これってUTF-16なの?

683 :デフォルトの名無しさん:2009/07/26(日) 03:39:24
Windowsでは9割9分9厘UTF-16。

ただ、一般にそうとは決まっていない。LinuxとかではUTF-32。
CやC++の標準規格ではそもそもUnicodeであることすら要求していない。

684 :デフォルトの名無しさん:2009/07/26(日) 10:39:59
今はどうだか知らないけれど Solaris とかだと wchar_t は
32 bit 表現の EUC だったような。


685 :デフォルトの名無しさん:2009/07/27(月) 00:54:00
>>684
そっちはlocale依存なんじゃね?

686 :デフォルトの名無しさん:2009/07/27(月) 01:17:38
一文字に16bitしか使わないときのUTF-16の値はUnicodeコードポイントにイコール?

687 :デフォルトの名無しさん:2009/07/27(月) 03:17:39
んなもん人に聞くな

688 :デフォルトの名無しさん:2009/07/27(月) 04:31:48
確かに。
アイちゃんに問いかけるべきだ

689 :デフォルトの名無しさん:2009/07/27(月) 10:09:38
>>682 >>683 >>684 >>685
つまり、標準C/C++でも、Lは規定されてて、
Lの後の文字列はLocaleで決めて下さいね、
って意味?

690 :デフォルトの名無しさん:2009/07/27(月) 13:33:30
コンパイラによって違う

691 :デフォルトの名無しさん:2009/07/27(月) 13:41:24
なるほど。

でもC/C++の文法的に、Lは存在するわけですね。

692 :デフォルトの名無しさん:2009/07/27(月) 15:26:35
> C/C++の文法的に、Lは存在するわけですね。

もちろん。


693 :デフォルトの名無しさん:2009/07/27(月) 17:03:20
すべては.NETに文字コードを自動判別するクラスがないのが悪い?

694 :デフォルトの名無しさん:2009/07/27(月) 17:45:03
.NETイラネ

695 :デフォルトの名無しさん:2009/07/28(火) 18:25:38
結局C/C++文法的には、LはLocaleなの?UNICODE指定なの?
人に説明するときのために知っておきたい。

696 :デフォルトの名無しさん:2009/07/28(火) 18:41:15
long

697 :デフォルトの名無しさん:2009/07/28(火) 18:48:56
ワイドキャラクターなのに Long の L とは。
数値型の int/ling の ling とまぎらわしいよね。
実際、1文字が int 幅なのか long 幅なのかはコンパイラ次第。

698 :695:2009/07/28(火) 18:52:19
d

Localeと間違えて恥かくとこダタwww

699 :695:2009/07/28(火) 18:54:06
>ワイドキャラクターなのに Long の L とは。

long型じゃなくて、長いって意味なのね、サンクツ。
危うく「2バイトだからlong」って新人でも間違えないような事言って疑われるところだったwwwww

700 :デフォルトの名無しさん:2009/07/31(金) 23:18:46
700

701 :701:2009/08/01(土) 08:52:48
このスレッドは700を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。

702 :デフォルトの名無しさん:2009/08/01(土) 21:48:25
702

703 :デフォルトの名無しさん:2009/08/02(日) 10:38:43
utf-8ってアジア圏涙目じゃねーかw

704 :アメリカ人:2009/08/02(日) 12:54:02
なんで東洋のわけわかめな文字を使ってる連中のために俺たちがコストを払う必要が
あるんだよ。一応使えるようにしてあるんだから文句言うな。ヨーロッパの連中?
お前ら同じ文字使えねぇなら少し苦労しろよ。

705 :デフォルトの名無しさん:2009/08/09(日) 10:49:26
VHFとかUHFってなに?

706 :デフォルトの名無しさん:2009/08/09(日) 20:52:04
まあなポーランドとかスウェーデンのキーボードでC/C++のソースを
打ち込むと涙目なんだってな

俺らが見ると暗号にしか見えないらしい

707 :デフォルトの名無しさん:2009/08/11(火) 20:16:21
>>706
ただのトライグラフじゃなくって?

>>705
VeryHighFrequency
UltraHighFrequency

708 :デフォルトの名無しさん:2009/08/14(金) 13:06:59
用語おかしいよね。
ELF : Extremely low frequency : 極限に低い周波数
SLF : Super low frequency : 超超低い周波数
ULF : Ultra low frequency : ちょー低い周波数
VLF : Very low frequency : とっても低い周波数
LF : Low Frequency : 低い周波数
MF : Medium Frequency : 中ぐらいの周波数
HF : High Frequency : 高い周波数
VHF : Very High Frequency : とっても高い周波数
UHF : Ultra High Frequency : ちょー高い周波数
SHF : Super High Frequency : 超超高い周波数
EHF ] Extremely High Frequency : 極限に高い周波数


709 :デフォルトの名無しさん:2009/08/14(金) 13:32:52
VHFの上にUHFを命名した後、それより上のネーミングに困ってアルファベットの逆順と言うルールを作ったとか。
日本語名がまた揮っていて、HFが短波、以下VHF:超短波、UHF:極超短波、SHF:極極超短波だったり。

710 :デフォルトの名無しさん:2009/08/15(土) 22:08:18
PC98のconfigなんとかとオートエグゼドエグゼスなんちゃらは
なんの文字コードでかいたらえんだ?

711 :デフォルトの名無しさん:2009/08/15(土) 22:53:34
Shift_JIS

712 :デフォルトの名無しさん:2009/08/16(日) 02:41:34
cp932

713 :tor.rootkit.de:2009/08/17(月) 17:57:37
自動焼人 ★ = 自動保守 ◆KAWORUKOFI = 自動保守#K9K?_D[L

名言集 その3
『いつもサボってばかりのキャップがウゼえ』

http://yutori7.2ch.net/test/read.cgi/news4vip/1249830540/ ID:PVAf+dux0 = 自動焼人 ★
> 71 :以下、名無しにかわりましてVIPがお送りします [sage] :2009/08/10(月) 00:58:57.28 ID:PVAf+dux0
> >>69
> 大変って言うか
> 毎日、報告されたのを見て、判断して、処理して、完了報告して、以下ループ。
> ちょっとでもミスすると、普段は作業もしてないキャップさんたちがさんざん文句言ってきて
> その言いわけを考えないと、キャップはく奪されたりアカウント凍結されたりするから
>
> 登録されてから一年以上経って、やっといいたいこと言えるようになってきたよ。



----------------------------------------------
この自動焼人 ★メールマガジンの配信停止をご希望される方は
http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/
にて自動焼人 ★までご連絡ください

714 :tor.rootkit.de:2009/08/17(月) 17:57:50
自動焼人 ★ = 自動保守 ◆KAWORUKOFI = 自動保守#K9K?_D[L

名言集 その1
『アパッチ砲はワシが作った』

http://jbbs.livedoor.jp/bbs/read.cgi/internet/134/1229674638/5062
自分の管理するしたらばで借りた掲示板にて

> 5062 :自動保守 ◆AOIMAD.NZM [] :2009/08/16(日) 00:46:29 ID:nQYgq9jg0
> そもそも、アパッチ砲っていうのは、私が指揮官になった時代に私の先輩たちが導入して
> 先輩たちが命名したもの、っていうかまぁ、そういう砲は今まで存在してないから
> 名前つけなくちゃいけないしw
>
> ってことで、使っているうちに広まった名前なので、それが正式名称になるんじゃないかと。
>
> http://www.paradisearmy.com/doujin/pasok_apache.htm(俺の先輩が命名)
> http://www.paradisearmy.com/doujin/pasok_hping.htm(俺が命名?)

※注 「アパッチ砲」の正式名称は「Apache Jmeter」で、もちろん自動焼人の先輩が作ったものではありません


----------------------------------------------
この自動焼人 ★メールマガジンの配信停止をご希望される方は
http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/
にて自動焼人 ★までご連絡ください

715 :デフォルトの名無しさん:2009/08/17(月) 22:42:47
オイ俺のコピペ脳、まで読んだ。

716 :デフォルトの名無しさん:2009/09/23(水) 23:06:08
こんばんは

こんばんわ
どっちが正しくて、その理由がわからん

717 :デフォルトの名無しさん:2009/09/23(水) 23:18:08
けふはてふてふがとんでゐるのをみたでせう

718 :デフォルトの名無しさん:2009/09/24(木) 02:07:28
今晩は好い夜で御座いますね。

719 :デフォルトの名無しさん:2009/09/24(木) 03:48:07
今晩は好い夜で御座いますね。

今晩わ好い夜で御座いますね。
どっちが正しくて、その理由がわからん

720 :デフォルトの名無しさん:2009/09/24(木) 10:41:48
わ なんて助詞は無い。
後スレ違い。

721 :デフォルトの名無しさん:2009/09/24(木) 12:36:30
あるよ。終助詞だけど。

722 :デフォルトの名無しさん:2009/09/25(金) 13:44:37
そんな話はしてないわ

723 :デフォルトの名無しさん:2009/09/26(土) 03:57:26
時々だけど、「電車は遅れるわ、財布は落とすわ……」の「わ」も「は」にする人を見かける。
あれは間違いなのか、それともそっちもアリなのか、面倒だから調べたことは無いけど。

724 :デフォルトの名無しさん:2009/09/26(土) 08:33:26
終助詞だな。精選版日国でも「わ」の項にも載ってる(「は」とも書く、とある)から、
どっちでもいいらしい。
学校じゃ教えない言い回しだから、「学校ではこっちを教えてる」という正解もないな多分。

725 :デフォルトの名無しさん:2009/09/26(土) 19:15:40
Char("わ") = Char("は")
ってこと?

726 :デフォルトの名無しさん:2009/09/26(土) 19:30:39
ノンノン

727 :デフォルトの名無しさん:2009/09/26(土) 20:55:36
> 学校じゃ教えない言い回しだから、「学校ではこっちを教えてる」という正解もないな多分。

文化庁「国語表記の基準」にあるぞ。

728 :デフォルトの名無しさん:2009/09/28(月) 20:58:53
UCS-4=UTF-32 ですか?

729 :デフォルトの名無しさん:2009/09/29(火) 02:12:20
ノンノノノン
ノンノノノン
ノンノノノン
ノンノノノン


730 :デフォルトの名無しさん:2009/10/04(日) 03:05:24
ELFっとどのくらいのことを言うんだ?

731 :デフォルトの名無しさん:2009/10/04(日) 08:13:26
3Hz〜30Hz

732 :デフォルトの名無しさん:2009/10/07(水) 15:43:38
jk
っていう文字列がワケワカメ

733 :デフォルトの名無しさん:2009/10/12(月) 00:34:37
香台->J
ttp://cpatch.org/witchfive/1/J.HTM

734 :デフォルトの名無しさん:2009/11/30(月) 13:58:04
保守

735 :デフォルトの名無しさん:2009/12/01(火) 00:35:36
このスレ、まとめられてたな。ところで UTF-1 とか UTF-7 って今はどうなったんだっけ?


736 :デフォルトの名無しさん:2009/12/01(火) 04:30:19
アンジーとアスキーとシフトジスの違いは?

737 :デフォルトの名無しさん:2009/12/01(火) 23:05:55
ああ米内ってあの射殺されたやつかw

738 :デフォルトの名無しさん:2009/12/17(木) 23:04:11
>>735
UTF-8に抹殺された。

739 :デフォルトの名無しさん:2009/12/19(土) 16:56:57
>>640
おかしいな。
コード体系は1970年代に僕が考えたものだけど。

740 :デフォルトの名無しさん:2009/12/19(土) 18:09:31
12ビット符号化はオレが先。

741 :デフォルトの名無しさん:2009/12/19(土) 23:23:27
もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz
--------------------
あのスレってどのスレ?

742 :デフォルトの名無しさん:2009/12/20(日) 01:30:42
UTF8(BOMなし)が最強。25年はこれで大丈夫。
全世界で一斉に統一汁

743 :デフォルトの名無しさん:2009/12/20(日) 10:25:06
もっと行けると思うけどな。
元の文字コード体系が追加で拡張してもついていけるし

744 :デフォルトの名無しさん:2009/12/20(日) 10:31:01
100年は行ける。

745 :デフォルトの名無しさん:2009/12/20(日) 14:31:48
世界で最も優秀な文字
国際神学大学院大学が主催して、ハングル学会などが後援する第1回世界文字オリンピック[6]でハングルが1位となり、
世界最高の文字と認められた[7]。しかし、韓国で開催される・ハングル学会が後援する・変化の少ない文字を
数年間隔で比較するなど、明らかに合理性に欠けた出来レースだと思われる点が多々存在する。
第2回世界文字オリンピックは、2011年に韓国の釜山で開催予定。

746 :デフォルトの名無しさん:2009/12/20(日) 14:43:11
>>742-744
あと100億文字追加しても余裕だよな

747 :デフォルトの名無しさん:2009/12/20(日) 14:48:15
万に一つ、もし文字コードが統一されたら、統一の弊害を洗い出す事が
一大研究分野になるだろうな。そしてバベルは崩壊する。

748 :デフォルトの名無しさん:2009/12/20(日) 14:49:52
いや、ハングルを廃止して、漢字を康煕字典に統一、
全てを16bitで収めて欲しい

749 :デフォルトの名無しさん:2009/12/20(日) 15:01:40
真面目な話、合成済み文字を全部廃止すれば、
表音文字は1プレーンで収まりそう。

750 :デフォルトの名無しさん:2009/12/20(日) 15:14:47
まぁ確かに漢字を康煕字典で統一すれば16bitに収まるが...

社会の側の負担が半端ないw

751 :デフォルトの名無しさん:2009/12/20(日) 15:21:39
VS併用すれば桶

752 :デフォルトの名無しさん:2009/12/20(日) 22:05:57
インバーターってなに?

753 :デフォルトの名無しさん:2009/12/21(月) 00:02:33
インバータ(Inverter)とは、直流電力から交流電力を電気的に生成する
電源回路、またはその回路を持つ電力変換装置のことである。
逆変換回路、逆変換装置などとも呼ばれる。インバータと逆の機能を持つ
回路(装置)はコンバータ、または整流器(順変換器)とも言う。

提供: フリー百科事典『ウィキペディア(Wikipedia)』

754 :デフォルトの名無しさん:2009/12/21(月) 02:49:08
フーン

755 :デフォルトの名無しさん:2010/01/07(木) 23:21:13
郡と群の違いは?

756 :デフォルトの名無しさん:2010/01/08(金) 02:24:13
>>755

757 :デフォルトの名無しさん:2010/01/08(金) 22:59:02
スレをまとめとUTF-8ってゆーのは
0をあ
1をい
01をう
11をえ
011をお
111をか
っていう2進と1文字の1対1対応の事なんでしょ?

758 :デフォルトの名無しさん:2010/01/09(土) 03:06:51
たしかにそのとおりだが、
それはUnicodeにも言えることだ。
「UnicodeとUTF-8の違い」
の説明にはなってないぞ。

759 :デフォルトの名無しさん:2010/01/09(土) 08:54:49
1と01の違いがわからなかった

760 :デフォルトの名無しさん:2010/01/09(土) 09:03:10
結局具体的な解説はまだミシュツなんじゃ

761 :デフォルトの名無しさん:2010/01/09(土) 11:11:08
お前が理解できないだけだろ。

762 :デフォルトの名無しさん:2010/01/09(土) 13:36:06
Unicodeはコード体系
UTF-8は実装
猿でも分かるだろこんなの

763 :デフォルトの名無しさん:2010/01/09(土) 14:43:09
実装ってなんだよ実装って。
近頃はエンコーディングも学校じゃ教えないのか。

764 :デフォルトの名無しさん:2010/01/09(土) 15:08:54
中学校ならさすがに教えてない

765 :デフォルトの名無しさん:2010/01/09(土) 15:39:14
>>763
物凄い馬鹿を晒してるから反省した方がいい

766 :デフォルトの名無しさん:2010/01/10(日) 13:50:29
JISとSJISの関係

767 :デフォルトの名無しさん:2010/01/10(日) 15:03:17
後者が「シフト符号化表現」とか、(0208:1997)
「Shift_JIS-2004」とかならまだわかる。(0213:2004)

768 :デフォルトの名無しさん:2010/01/10(日) 15:06:38
Unicodeは文字集合で世界中から文字や記号を集めた物。
21bitで表現されて、収録可能な文字数は約209万字。(U+0000〜U+10FFFF)

U+0000〜U+10FFFFの範囲の文字を、ビットの並びとしてどう表現するかを決めたのが
符号化形式でいくつかの種類がある。
代表的な物は UTF-7 / UTF-8 / UTF-16 / UTF-32 など。

UTF-8はUnicodeを符号化する為の形式の一つ。
他のUTF-16やUTF-32と異なり、データの並びの順番(エンディアン)が一意に定まる。
ASCIIコードとの互換が高く、従来の文字列処理のやり方で扱いやすい符号化方法。
可変長なので、文章中の文字数をはじき出すには、文字数を数える必要がある。(=データサイズから文字数を求められない)
日本語を表現させるとシフトJISよりサイズが増えてしまうのが泣き所。

769 :デフォルトの名無しさん:2010/01/10(日) 17:19:15
>>768
正しいけど>>758>>760みたいなサルには理解不能だなw

770 :デフォルトの名無しさん:2010/01/10(日) 19:17:02
今では「Unicode」は文字集合も、それに対するコーディングシステムも、
文字を扱うときの規則も全て含んだ文字コード体系全体を指すことの方が多いのでは?

771 :デフォルトの名無しさん:2010/01/10(日) 19:38:07
>>770
そりゃ、「Unicodeとは何か?」って聞かれりゃね。
>>1の質問はそうじゃ無いし。

772 :デフォルトの名無しさん:2010/01/10(日) 21:02:08
インディアンがまだ続いてたのか・・・

773 :デフォルトの名無しさん:2010/01/11(月) 11:08:59
うそつかない

774 :デフォルトの名無しさん:2010/01/11(月) 12:30:02
符号化方式の存在意義が不明

775 :デフォルトの名無しさん:2010/01/11(月) 14:54:01
使われる場面が違うと、符号化形式に求められる物も違ってくるって事だな。
あとは歴史的な経緯もある。

最も古いUTF-16は、2オクテット(16bit)を基本として、主要な言語の文字は
その範囲に収まるようにしてある。本当は2オクテット固定長にしたかったのだが、
文字数が足りなくなってしまったので、16bitで表現可能な範囲を超える分については
サロゲートと言ってさらに2オクテット必要とする。
これは「文字コードは16bitあれば十分!」なんて思われていた時代の傷跡。
ちなみにUnicodeが21bitなのはサロゲートで表現可能な上限が21bitだから。
WindowsやJavaの内部文字コードとして採用されたので、普及率が高い。

UTF-7は、7bitでしか通信が行えない古いSMTPサーバー間の
通信路で使われる事を想定されていた。
UTF-16のASCIIコード互換領域以外をbase64で7bitエンコードする物だが、
そんな面倒な事をするならUTF-8あたりをbase64で丸々くるんで使えよって話になった。
ステートフルなので、文章の頭から順に読み込んで行かないとならない。

UTF-8は、1オクテット(8bit)を基本とする物で、最初から1〜4オクテットの可変長。
ASCIIコードを処理しているプログラムと相性が良くて、それが好まれる。
ASCIIコードの範囲ならほぼ1オクテットに収まるが、日本語は殆ど3オクテットになる。
これもHTML/XML標準やMac OS XやLinuxで使われてるので普及率が高い。
可変長なので内部文字コードとして使うには面倒くさい部分もあるが、
バイトの並び順が固定されているので、その分はやりやすい。
何らかのアクシデントでビットが欠落しても文字の境界が分かりやすい利点もある。

UTF-32は、4オクテット(32bit)を基本とする物で、4オクテットの固定長。
32bitとは言っても、そのうち文字の表現に使われるのは21bit。
1文字が絶対に4オクテットなので、文章の保存にはサイズの問題からまず使われない。
文字数は文章サイズを4で割れば求まるかというと、実はそうでも無い。
合成文字や異字体セレクタなどがあると、その目論見は脆くも崩れ去る。
データの境界が常に4オクテット単位であってほしい、メモリ上や、データベース上の内部コード向け。

776 :デフォルトの名無しさん:2010/01/11(月) 15:08:30
バカみたいに文字種の増えるハングルを字母だけの収録にすれば16bitで十分収まる
もちろん公平に日本語の濁点やラテン文字の補助符号等もAA方式で組合せ文字にする

777 :デフォルトの名無しさん:2010/01/11(月) 15:10:48
スレの表題にあるように単に「UnicodeとUTF-8の違いは?」と聞かれたら、UTF-16とUTF-8の符号化方式の違いを問われてるように感じるんだが。

単に「Unicode」と言えば、UTF-16の事だと受け取る感覚が古いのだろうか?

778 :デフォルトの名無しさん:2010/01/11(月) 15:18:55
>>777
その感覚自体がよくわからんのだが、MSどっぷりだとまた違うのだろうか。
>>1のとっかかりってメモ帳の文字コード指定なんだろうし。
# 俺的感覚では「UnicodeつーたらふつーUTF-8だろjk」だったりするが。

779 :デフォルトの名無しさん:2010/01/11(月) 15:23:29
>776
漢字は異なる字体を全てひとつのコードで表す事にすれば16bitで収まるのかも知れないが、既に地理的、歴史的事情でいろんな字体が共存してしまってるからな。

「この状況ではこの字体を使う」と言う統一的なルールをつくるのも難しいだろうと思える。

780 :デフォルトの名無しさん:2010/01/11(月) 15:34:13
俺の感覚ではUnicodeは何百ページもある巨大な仕様なのに、
ただ単にUnicodeと言えば単一の符号化形式を指してるような
感覚で物を言う奴は分かってないのが多いので信用しない。
こういう奴は、文字集合と符号化形式の区別もついてないのが多い。

781 :デフォルトの名無しさん:2010/01/11(月) 15:51:55
UTF-16のリトルエンディアンとUTF-16LEが別物っていうのを最近知ったわ

782 :777:2010/01/11(月) 15:55:19
>778 >780
私がUnicodeと言う言葉を最初に知ったときにはUTF-16しか無かったからね。

そのためつい、単に「Unicode」と言われるとUnicode文字セット UTF-16と同一視してしまう。

783 :デフォルトの名無しさん:2010/01/11(月) 16:47:30
>>781
UTF-16も、
 UTF-16LE(リトルエンディアン) ※BOMを付けてはいけない。
 UTF-16BE(ビッグエンディアン) ※BOMを付けてはいけない。
 UTF-16のリトルエンディアン BOM付き
 UTF-16のビッグエンディアン BOM付き
 UTF-16のBOM無し(bit列はUTF-16BEと同じ)
と5種(bit列としては4種)あるからねぇ。

Windowsのメモ帳は、Unicodeの規格には無いBOM付きのUTF-8とかで保存しやがるし。
UTF-8はバイトオーダー固定だからBOMなんか無いってのに、
そんな事をするもんだからUTF-8とかUTF-8Nとか別れちゃうし。
文字コードの世界はややこしい。

※BOMはByte Order Markでエンディアンを明示するためのコードね。

784 :デフォルトの名無しさん:2010/01/11(月) 18:26:02
あ、Unicodeの最大収録文字数間違えたわ。申し訳ない。
2^21=約209万字じゃなくて、

サロゲートペアは1024^2の領域で表せられるので、全部で1048576字
これに基本言語面の65536字から、サロゲート用の2048領域を除いた物を加えると、
1048576+(65536-2048)=1112064文字だった。というわけで約111万字だった。

785 :デフォルトの名無しさん:2010/01/11(月) 20:45:03
>>776
>もちろん公平に日本語の濁点やラテン文字の補助符号等もAA方式で組合せ文字にする
NFDで既にそうなってるから

786 :デフォルトの名無しさん:2010/01/12(火) 00:17:14
すべての文字を画像として扱えばどんな文字でも表現できるのになもうハードも画像ベースで扱えるぐらい進化したし

787 :デフォルトの名無しさん:2010/01/12(火) 00:41:21
>786
すべての文字が画像として表現されていて、表示がクソ重いWebページなんて俺は嫌だぞ。

788 :デフォルトの名無しさん:2010/01/12(火) 02:44:03
すべてとは言わず極端に頻度の低い異体字なんかを外部参照にして都度ストロークやビットマップで表現するってのはありかも
編集を重ねた文書がクソ重いデータに成るっぽいのはイヤだけど

789 :デフォルトの名無しさん:2010/01/12(火) 05:41:00
>>786
馬鹿すぎw

790 :デフォルトの名無しさん:2010/01/12(火) 07:49:36
>>783

UTF-8のBOMはUnicodeの規格に入ったんじゃなかったっけ?
バイトオーダーを示すBOMとしてではなくて、UTF-8を表すシグネチャーという扱いで


791 :デフォルトの名無しさん:2010/01/12(火) 13:44:10
> UTF-16BE(ビッグエンディアン) ※BOMを付けてはいけない。
> UTF-16のBOM無し(bit列はUTF-16BEと同じ)
この2つが別なの??マジワケわかんねぇ……

792 :デフォルトの名無しさん:2010/01/12(火) 14:34:02
>>790
この資料によると、UTF-8の際でもsignatureとしてのみBOMを使えるって書いてあるね。
http://unicode.org/faq/utf_bom.html#bom5
Where a BOM is used with UTF-8,
it is only used as an ecoding signature to distinguish UTF-8 from other encodings
? it has nothing to do with byte order.

という事はUTF-8に対応しているって表明しているプログラムの場合、
厳密に解釈するならBOMがあると正常に動作しないような実装は、中途半端って事か。
(BOMを付けるかどうかは選択自由だけど。)

>>791
Unicodeの規格上、符号化方式はUTF-16とUTF-16BEで別の扱いだが、
符号化された結果は同じになるって事。

793 :デフォルトの名無しさん:2010/01/12(火) 23:36:20
「オブジェクト」ってなに?

794 :デフォルトの名無しさん:2010/01/31(日) 18:11:33
物っぽいナニカ。

795 :デフォルトの名無しさん:2010/01/31(日) 19:38:45
物のたとえ

796 :デフォルトの名無しさん:2010/02/01(月) 00:12:25
コンパイルしてリンクする前のバイナリ

797 :デフォルトの名無しさん:2010/02/03(水) 11:48:51
オブジェクトとインスタンスの違いは?

798 :デフォルトの名無しさん:2010/02/03(水) 11:58:14
オブジェクトは広い意味でクラスも含んでる場合があるな
そういう曖昧さを避けるためにまともな本では
クラスとオブジェクトという対比ではなく
クラスとエンティティと表現している
っつーかスレ違いじゃぼけ

799 :デフォルトの名無しさん:2010/02/04(木) 11:19:08
すれ違いに続けるのもなんだけど。
>>798
いやいやオブジェクトとエンティティは別物でしょう。
クラスと(クラス)インスタンスって言うと思うけど。

800 :デフォルトの名無しさん:2010/02/04(木) 11:27:06
U+FFFCをオブジェクトと略しても通じないと思う


801 :デフォルトの名無しさん:2010/02/04(木) 11:27:59
オブジェクトとエンティティが別物じゃないとは誰も言ってないぞ
っつーかスレ違いじゃぼけ

802 :デフォルトの名無しさん:2010/02/04(木) 11:44:03
いや別物だといってるんだけど。

803 :デフォルトの名無しさん:2010/02/04(木) 11:51:44
スレも別物になってる

804 :デフォルトの名無しさん:2010/02/04(木) 11:53:29
>>802
どこ?

805 :デフォルトの名無しさん:2010/02/04(木) 14:31:56
ラーメンと野球の違いは?

806 :デフォルトの名無しさん:2010/02/04(木) 14:46:23
打球はのびるとうれしいが
ラーメンはのびるとうれしくない

807 :デフォルトの名無しさん:2010/02/04(木) 14:47:37
お前どこにでもいるな

808 :デフォルトの名無しさん:2010/02/04(木) 15:57:03
808

809 :デフォルトの名無しさん:2010/02/04(木) 16:17:20
オブジェクト指向で「エンティティ」と言う言葉はあまり聞いた事が無いなと思ってたら、その関係はなかなか微妙みたいだな。

http://itpro.nikkeibp.co.jp/free/NIP/NIPCOLUMN/20021225/2/

スレ違いを続けてスマソ。

810 :デフォルトの名無しさん:2010/02/05(金) 02:01:58
と、エンティティという言葉を覚えたての素人がほざいております

811 :デフォルトの名無しさん:2010/02/05(金) 07:45:02
>>804
一昔前に良く話題になったよね。
http://www.google.co.jp/search?q=OOA+DOA+%E3%82%AA%E3%83%96%E3%82%B8%E3%82%A7%E3%82%AF%E3%83%88+%E3%82%A8%E3%83%B3%E3%83%86%E3%82%A3%E3%83%86%E3%82%A3&btnG=%E6%A4%9C%E7%B4%A2

812 :デフォルトの名無しさん:2010/02/05(金) 15:35:55
>>811
お前馬鹿じゃね?

813 :デフォルトの名無しさん:2010/02/05(金) 16:43:31
お前どこにでもいるな

159 KB [ 2ちゃんねる 3億PV/日をささえる レンタルサーバー \877/2TB/100Mbps]

取りに行ったけどなかった。次は一時間後に取りに行くです。
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :


read.cgi ver 05.0.7.8 2008/11/13 アクチョン仮面 ★
FOX ★ DSO(Dynamic Shared Object)