monazilla/develop/dat
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
#topicpath
*datの仕様
#contents
(2007/05/14)
**取得
/board/dat/0000000000.dat にファイルが置かれています。
この0は、実際はスレッド作成日時のUNIXタイムで、[[subject....
基本的なアクセス方法は[[../access]]を参照してください。
User-Agentには特に注意が必要です。
'''MSIE 6'''が含まれていると、以下のようなXMLっぽい情報が...
<?xml version="1.0" encoding="Shift_JIS"?>
<text><![CDATA[
元々のdat内容
]]></text>
**形式
名前<>E-mail<>日付とIDとBE<>本文<>スレッドタイトル
名前<>E-mail<>日付とIDとBE<>本文<>
名 </b>fusianasan.2ch.net<b>前<>E-mail<>日付とIDとBE<>本...
名前 </b>◆ozOtJW9BFA <b><>E-mail<>日付とIDとBE<>本文<>
キャップ ★<>E-mail<>日付とIDとBE<>本文<>
名前 </b>◆ozOtJW9BFA <b>@キャップ ★<>E-mail<>日付とIDと...
あぼーん<>あぼーん<>あぼーん<>あぼーん<>あぼーん
...
スレッドタイトルは、1にしか書かれません。
ただし、削除跡(レス削除、スレ停止、スレ移動)等では、ス...
**用語の定義
以下のために用語の定義をしておくと、
<を&lt;とする方法をHTMLエンコードとします。
|~文字|~a|~<|~>|~&|~"|~あ|h
|~HTMLエンコード|a|&lt;|&gt;|&|&quot;|あ|
HTMLエンコードは、全ての欄で < と >、名前・メール・...
そのことを利用したAAなどもありますから、できることなら
特殊文字(&hearts;など)や実態参照(&#ddや&#xff;...
理解できるようにしておきましょう。
**規則
文字コードは通常ではShift_JIS。
改行コードは\n。
投稿者が記入したものはHTMLエンコードされています。
***名前
read.cgiでは、名前を太字で表示するためにBタグを付加します...
datでは単純な名前のみの記録です。
fusianasan等のホスト表示では、手入力の文字列と区別するた...
太字ではなく通常表示となっており、ホストの前に</b>で太字...
ホストの後に<b>で再び太字にしています。
このタグはdatに記録されています。
◆という文字があれば、それ以降の10文字(古い投稿では8文字...
トリップも通常表示とするために、同様に</b>と<b>で挟まれて...
普通に文字として◆を書くと、◇にされてしまいます。
同様に、★と●も特殊な条件の人しか使えず、☆と○にされます。
***E-mail
AタグのHREF属性の値として使われる事が多いかと思いますが、...
シングルクォートはHTMLエンコードされずに、そのまま書き込...
***日付とID等
IDが付く板の場合、日付のあとにID:xxxxxxxxのようにIDが付い...
なぜかまとめて格納されていますが、
おそらく、IDは後から追加されたデータなので、
過去のブラウザを修正しなくてもいいように、配慮したのでは...
また、2004/12あたりから、[[BE@2ch掲示板]]のプロファイル...
IDの後に空白で連結されて、BE:xxxxxxのようになります。
このまま使っても問題は起きないと思いますが、分割するには、
" ID:"(先頭に空白が1つあります)という文字列を探...
見つかったなら、それより前は日付、後はIDとすればいいです。
見つからなければ、IDはありません。BEも同様です。
日付について少し加えると、いろいろな書き方があるようです。
古いものから順にあげていくと、、
YYYY/MM/DD(W) hh:mm
YY/MM/DD hh:mm
YY/MM/DD hh:mm:ss
Y: 年
M: 月
D: 日
W: 曜日 (漢字で1文字)
h: 時間 (24時間)
m: 分
s: 秒
現在では、日付の書式も掲示板設定で変えられるようになって...
既定通りの記録がなされているとは限りません。
その他、今後も様々なオマケデータがここに付加される可能性...
データの解釈に柔軟性を持たせるのが良いかもしれません。
***本文
改行は<br>になっているので、
適切な改行コードになおすなどしてください。
そうすると、複数の行になると思われますが、
その各行の前後に、空白が1つ付いているのが分かるかと。
何のためにこのような仕様になっているのかは分かりませんが、
ともかく、''普通は''、以下のようになっています。
" 1行目 "
" 2行目 "
" 3行目 "
...
↑で普通は、と書きました。
それは、おそらくバグだろうと思いますが、
変なログが、まれに、まぎれ込んでいるからです。
具体的には/unix/1000022300/143で、以下のような形をしてい...
" 1行目"
"2行目"
...
"最後の行 "
見れば分かりますが、最初と最後にしか、空白がついていませ...
**未稿
http://pc5.2ch.net/test/read.cgi/tech/1057329161/188
188 : ◆ap/yuix/tw :05/01/16 18:22:47
dat取得の仕様
hoge.2ch.net鯖のhogehoge板のキーが1234567890のスレッド(h...
(1)http://hoge.2ch.net/hogehoge/dat/1234567890.datを取得
(2)http://hoge.2ch.net/hogehoge/kako/1234/12345/12345678...
(3)http://hoge.2ch.net/hogehoge/kako/1234/12345/12345678...
(4)●がある場合 offlaw.cgiを使用
(1)から(4)まで、302 Foundになるたびに次に進む
終了行:
#topicpath
*datの仕様
#contents
(2007/05/14)
**取得
/board/dat/0000000000.dat にファイルが置かれています。
この0は、実際はスレッド作成日時のUNIXタイムで、[[subject....
基本的なアクセス方法は[[../access]]を参照してください。
User-Agentには特に注意が必要です。
'''MSIE 6'''が含まれていると、以下のようなXMLっぽい情報が...
<?xml version="1.0" encoding="Shift_JIS"?>
<text><![CDATA[
元々のdat内容
]]></text>
**形式
名前<>E-mail<>日付とIDとBE<>本文<>スレッドタイトル
名前<>E-mail<>日付とIDとBE<>本文<>
名 </b>fusianasan.2ch.net<b>前<>E-mail<>日付とIDとBE<>本...
名前 </b>◆ozOtJW9BFA <b><>E-mail<>日付とIDとBE<>本文<>
キャップ ★<>E-mail<>日付とIDとBE<>本文<>
名前 </b>◆ozOtJW9BFA <b>@キャップ ★<>E-mail<>日付とIDと...
あぼーん<>あぼーん<>あぼーん<>あぼーん<>あぼーん
...
スレッドタイトルは、1にしか書かれません。
ただし、削除跡(レス削除、スレ停止、スレ移動)等では、ス...
**用語の定義
以下のために用語の定義をしておくと、
<を&lt;とする方法をHTMLエンコードとします。
|~文字|~a|~<|~>|~&|~"|~あ|h
|~HTMLエンコード|a|&lt;|&gt;|&|&quot;|あ|
HTMLエンコードは、全ての欄で < と >、名前・メール・...
そのことを利用したAAなどもありますから、できることなら
特殊文字(&hearts;など)や実態参照(&#ddや&#xff;...
理解できるようにしておきましょう。
**規則
文字コードは通常ではShift_JIS。
改行コードは\n。
投稿者が記入したものはHTMLエンコードされています。
***名前
read.cgiでは、名前を太字で表示するためにBタグを付加します...
datでは単純な名前のみの記録です。
fusianasan等のホスト表示では、手入力の文字列と区別するた...
太字ではなく通常表示となっており、ホストの前に</b>で太字...
ホストの後に<b>で再び太字にしています。
このタグはdatに記録されています。
◆という文字があれば、それ以降の10文字(古い投稿では8文字...
トリップも通常表示とするために、同様に</b>と<b>で挟まれて...
普通に文字として◆を書くと、◇にされてしまいます。
同様に、★と●も特殊な条件の人しか使えず、☆と○にされます。
***E-mail
AタグのHREF属性の値として使われる事が多いかと思いますが、...
シングルクォートはHTMLエンコードされずに、そのまま書き込...
***日付とID等
IDが付く板の場合、日付のあとにID:xxxxxxxxのようにIDが付い...
なぜかまとめて格納されていますが、
おそらく、IDは後から追加されたデータなので、
過去のブラウザを修正しなくてもいいように、配慮したのでは...
また、2004/12あたりから、[[BE@2ch掲示板]]のプロファイル...
IDの後に空白で連結されて、BE:xxxxxxのようになります。
このまま使っても問題は起きないと思いますが、分割するには、
" ID:"(先頭に空白が1つあります)という文字列を探...
見つかったなら、それより前は日付、後はIDとすればいいです。
見つからなければ、IDはありません。BEも同様です。
日付について少し加えると、いろいろな書き方があるようです。
古いものから順にあげていくと、、
YYYY/MM/DD(W) hh:mm
YY/MM/DD hh:mm
YY/MM/DD hh:mm:ss
Y: 年
M: 月
D: 日
W: 曜日 (漢字で1文字)
h: 時間 (24時間)
m: 分
s: 秒
現在では、日付の書式も掲示板設定で変えられるようになって...
既定通りの記録がなされているとは限りません。
その他、今後も様々なオマケデータがここに付加される可能性...
データの解釈に柔軟性を持たせるのが良いかもしれません。
***本文
改行は<br>になっているので、
適切な改行コードになおすなどしてください。
そうすると、複数の行になると思われますが、
その各行の前後に、空白が1つ付いているのが分かるかと。
何のためにこのような仕様になっているのかは分かりませんが、
ともかく、''普通は''、以下のようになっています。
" 1行目 "
" 2行目 "
" 3行目 "
...
↑で普通は、と書きました。
それは、おそらくバグだろうと思いますが、
変なログが、まれに、まぎれ込んでいるからです。
具体的には/unix/1000022300/143で、以下のような形をしてい...
" 1行目"
"2行目"
...
"最後の行 "
見れば分かりますが、最初と最後にしか、空白がついていませ...
**未稿
http://pc5.2ch.net/test/read.cgi/tech/1057329161/188
188 : ◆ap/yuix/tw :05/01/16 18:22:47
dat取得の仕様
hoge.2ch.net鯖のhogehoge板のキーが1234567890のスレッド(h...
(1)http://hoge.2ch.net/hogehoge/dat/1234567890.datを取得
(2)http://hoge.2ch.net/hogehoge/kako/1234/12345/12345678...
(3)http://hoge.2ch.net/hogehoge/kako/1234/12345/12345678...
(4)●がある場合 offlaw.cgiを使用
(1)から(4)まで、302 Foundになるたびに次に進む
ページ名: