Herzlich Willkommen, lieber Gast!
  Sie befinden sich hier:

  Forum » VC++ / MFC » Webseite auslesen liefert seltsame Strings

Forum | Hilfe | Team | Links | Impressum | > Suche < | Mitglieder | Registrieren | Einloggen
  Quicklinks: MSDN-Online || STL || clib Reference Grundlagen || Literatur || E-Books || Zubehör || > F.A.Q. < || Downloads   

Autor Thread - Seiten: > 1 <
000
22.07.2006, 09:02 Uhr
Usul



hi,

ich habe eine Funktion, die sich zu einer Webseite verbinden und deren Inhalt (z.B. den HTML-Code) auslesen und als String zurueckgeben soll:


Code:
   CString GetSourceHtml(CString url)
   {      
      CString somecode, s;      
      CInternetSession session;
      CInternetFile* file = NULL;
    
      try
      {      
         file = (CInternetFile*) session.OpenURL(url);
      }
      catch (CInternetException* m_pException)
      {      
         file = NULL;
         m_pException->Delete();
      }
    
      if(file)
      {      
         while (file->ReadString(somecode) != NULL)
         {
            s = s + somecode;
         }
      }
    
      file->Close();
      return s;
   }


Wenn ich aber die Funktion benutze, z.B. CString blubb = GetSourceHtml( _T("http://www.google.de/") ); , dann erhalte ich seltsame Strings:

(Auszug)

Zitat:

格浴㹬格慥㹤洼瑥⁡瑨灴



Was mache ich falsch?

Dieser Post wurde am 22.07.2006 um 09:13 Uhr von Usul editiert.
 
Profil || Private Message || Suche Download || Zitatantwort || Editieren || Löschen || IP
001
22.07.2006, 10:24 Uhr
FloSoft
Medialer Over-Flow
(Administrator)


Hi,
das sind html-entities, in dem fall unicode/utf-8
--
class God : public ChuckNorris { };
 
Profil || Private Message || Suche Download || Zitatantwort || Editieren || Löschen || IP
002
22.07.2006, 11:03 Uhr
Usul




Zitat von FloSoft:
Hi,
das sind html-entities, in dem fall unicode/utf-8



Danke!

Wie kann ich das in einen ASCII-CString konvertieren?
 
Profil || Private Message || Suche Download || Zitatantwort || Editieren || Löschen || IP
003
24.07.2006, 08:44 Uhr
Audron-AT-www
http://www.sXene.de Audron@sxene.de
(Operator)


Entities
Als Entities bezeichnet man die spezielle ->HTML-Codierung von Zeichen, die nicht Teil des ->ASCII sind. Da dieser Code nur 128 Zeichen umfasst und Sonderzeichen nicht enthalten sind, wird zum Beispiel das ü als &uuml; im ->Quelltext eines ->HTML-Dokumentes geschrieben.

(Quelle hier)

Außerdem könnte ich dir noch sagen, dass es eine PHP Funktion gibt die dir vielleicht helfen könnte:

html_entity_decode
string html_entity_decode(string string[, int quote_style][, string charset])
Wandelt alle HTML-Entitäten in die entsprechenden Zeichen um.

(O'Reilly-PHP-Kurzreferenz )
--
Mit freundlichen Grüßen
Audron, audron@sxene.de
 
Profil || Private Message || Suche Download || Zitatantwort || Editieren || Löschen || IP
Seiten: > 1 <     [ VC++ / MFC ]  


ThWBoard 2.73 FloSoft-Edition
© by Paul Baecher & Felix Gonschorek (www.thwboard.de)

Anpassungen des Forums
© by Flo-Soft (www.flo-soft.de)

Sie sind Besucher: